在很多情况下,我们建模时都必须把不确定性包括进来;因而作为建模者,必须对有关的分布做出假设。这里的原则是,我们要尽量避免做出任意特殊假设(ad hoc assumption)。也许,我们对产生分布的过程已经有了一些了解。如果是这样,通常可以运用逻辑—结构—功能方法,推导出该过程产生的统计结构。

例如,假设我们想要对一个房地产拍卖中的所有拍卖对象的总价值的分布做出一个假设。总价值等于各个项目的价值总和。因此,我们可以根据中心极限定理假设这是一个正态分布。对于一栋房子的可能价值,我们也可以假设一个正态分布,因为房屋的价值取决于它的多个性质:卧室的数量、浴室的数量和占地大小等。
对于艺术珍品或稀有手稿的可能价值,正态分布却可能没有意义。在这些情况下,我们对决定它们价值的过程几乎一无所知。一种方法是假设一个具有最大不确定性的分布,即最大熵分布。
最大熵分布的形状取决于各种约束条件。正如我们已经看到的,如果假设了一个最小值和一个最大值,那么均匀分布会使熵最大化。教科书和学术期刊中的许多社会科学模型都假设均匀分布,我们可能会质疑这个假设,因为均匀分布在现实世界中确实很少出现。然而,无差别原则(principle of indifference)可以证明假设均匀分布的合理性。如果只知道范围或可能集,那么就应当予以无差别的对待。
在某些情况下,我们可能知道分布的均值,也知道所有值都必定是正数。给定这些约束条件,最大熵分布必定具有长尾,因为我们要将分布置于更多的值上,从而必须使少数高值结果与许多低值结果保持平衡。不难证明,熵最大化分布是一个指数分布。因此,如果我们正在构建一个模型,需要假设网站点击量或市场份额的分布形式,那么在没有可用数据的情况下,指数分布是一种自然的假设。
如果我们确定了均值和方差(并且允许出现负值),那么最大熵分布则是正态分布。这里的逻辑与前一种情况类似。为了创造更多的不确定性,我们创造了一些极端值,在这里,可以平衡正值和负值,而不用改变均值。但是,这样做会增大方差,因此我们必须在均值附近添加更多值,从而创造出钟形曲线。
我们可以在逻辑—结构—功能框架内解释这些最大熵分布。如果我们认为在给定的社会、生物或物理环境中,某个微观层面的过程能够最大化熵,那么我们应该期待上面这些分布中的某一个会出现。或者也可以假设一个微观过程,并能够证明熵在增加。如果是这样,上述分布中的某一个也会涌现出来。
最大熵分布
均匀分布:给定范围[a,b],使熵最大化。
指数分布:给定均值μ,使熵最大化。
正态分布:给定均值μ和方差σ2,使熵最大化。
我们也可以将这些结果解释为探索性的。我们可能会遇到一些指数分布或正态分布的数据。虽然没有“义务”去追问某种潜在的行为是否会在一定约束条件下使熵增加,但这样做确实可以帮助我们获得一些新的洞见。在本书前面的章节中,我们利用中心极限定理解释了物种的高度、重量和长度为什么会服从正态分布。在这里,我们再给出一个不同的、基于模型的解释:如果一种突变能够最大化熵(以便探索最好的生态位),并且假设平均规模和总离散度是固定的,那么规模的分布将会是正态的。关键不在于这种最大熵方法是不是提供了一个更好的解释,而在于给定约束下最大化熵必定会导致正态分布。因此,当我们看到正态分布时,它可能是最大化熵的结果。
 
熵的实证含义和规范含义
 
前面我们已经讨论了,熵如何衡量不确定性、信息和惊喜,如何与测量离散度的方差不同,以及如何有助于我们对不同类别的结果进行分类和比较。在本书第13章和第14章中研究随机游走和路径依赖时,还会利用熵来识别随机性并测量路径依赖的程度。事实上,我们可以将熵测度用于任何实际应用,可以用它来衡量对金融市场的干预是增加了还是减少了不确定性,可以检验选举、体育赛事或博彩中的结果到底是不是随机的。
在这些应用中,熵都是作为一个实证的衡量标准来使用的。它告诉我们世界是什么样的,而不是世界应该是什么样。一个系统中的熵的本质,不能简单地说好,也不能简单地说不好。我们想要多少熵,取决于具体情况。在制定税法时,我们可能需要一种均衡行为模型,并不希望有随机性。在规划城市时,我们可能会希望看到复杂性,均衡或者周期性都会显得过于平淡。我们希望一个城市充满生机活力,为偶然的相遇和互动提供无限机会。在这种情况下,更多的熵会更好,但是又不能太多。我们不喜欢随机性,随机性会使计划变得非常困难,并可能导致我们的认知能力崩溃。最理想的情况是,世界会产生适度的复杂性,以保证我们生活在一个有趣的时代。
建筑师克里斯托弗·亚历山大(Christopher Alexander)证明,诸如强中心、厚边界和非独立这类的几何属性,能够生成复杂的生活建筑、社区和城市。亚历山大渴望城市和生活空间中的复杂性。中央银行的规划者可能不太喜欢复杂性,在金融市场中,他们可能更喜欢可预测的均衡结果。不过幸运的是,使用模型,我们既可以探索复杂性,也可以讨论均衡的可能性。
1. 数字x的以2为底的对数必定等于使2产生x的幂,因此log2(4)=2,且log2(2N)=N。在一般情况下,loga(x)等于使a产生x的幂。因此,如果ay=x,则loga(x)=loga(ay)=y。
2. 我们可以将信息熵写成如下的长形式:
1606006850277.png
这个式子可以化简为:
1606006848152.png

章节错误,点此举报(免注册),举报后维护人员会在两分钟内校正章节内容,请耐心等待,并刷新页面。

您看此文用        秒

如若转载,请注明出处:《最大熵和分布假设-岚昕文学网》https://axcxa.com/child/146/4898.html

打赏
  • 打赏支付宝扫一扫
  • 打赏微信扫一扫