内容简介:如何通俗地理解决策树中的信息熵
好,开篇之前,我们先做好定义:
信息熵?这是什么玩意,它代表了什么?信息量为什么又和概率有关?
好了,为了解决问题,让我们还是回到定义本身中来。
1.信息量
第一个问题:信息是什么?它是可以计算的吗?
我们先从现实出发,看看信息是否有量化的可能。 例如今天阿包告诉我,“广州明天的太阳会从东边升起。”
这时我就想,这话虽然很正确,但是我觉得没什么用啊,太阳从东边升起不是确定的事件吗,还有说的价值吗? 所以,我的想法是这句话的信息量为零。
这时候,阿包看着我不屑的表情,顿时狡猾一笑说, 虽然明天广州的太阳还是从东边升起,但是明天广州会下雪哦~
听到这里,我就觉得震惊了,顿时就说“ 这不太可能把,你这话信息量好大,我赶紧去查查天气预报。” (注: 2016 年1月24日中午前后 ,广州气象局确认这是广州城区新中国成立以来第一次降雪)
从上面的例子我们就发现,信息确实可以划分出信息量大小的,而且我们发现这件事情的信息量大小,是和这件事情的发生概率相关,好了,既然如此,那么我们该如何构造信息量的表达式?
我们先提炼一下信息量的表达式应该满足的条件:
(1) 信息量和事件发生的概率有关,当事件发生的概率越低,传递的信息量越大;
(2) 信息量应当是非负的,必然发生的信息量为0;
(3) 两个事件的信息量可以相加,并且两个独立事件的联合信息量应该是他们各自信息量的和;
对于(1),前面我们已经讨论过了,不再阐述;
对于(2),一个信息要么帮助我们降低不确定性,要么不能降低不确定性,但是不会出现知道这个消息后,现有的消息会消失的情况;
对于(3)对于两个独立事件,因为p(AB)=p(A)p(B),若信息量的计算公式为f(p(x)),则应当有f(p(AB))=f(p(A))+f(p(B))
根据上述条件,信息量的基本计算公式应当满足如下形式:
底数只要满足取值大于1即可,但一般来说,我们可以遵循信息论的传统用法,取底数a=2,即
2.信息熵
解决了信息量的计算问题,接下来第二个问题,我们聊聊熵这个概念。
熵(Entropy)这个概念最早出现在热力学中,是由德国物理学家及数学家鲁道夫·尤利乌斯·埃马努埃尔·克劳修斯所提出,它的物理意思表示该体系的混乱程度,简单地说,如果该体系下的分子运动杂乱程度增加,该体系的熵也随着增加。
类比下来,我们刚刚讨论了一个事件的信息量大小,那么对于这个事件发生之前,我们怎么衡量呢?因此,在1948年,信息论之父克劳德·艾尔伍德·香农提出了信息熵的概念, 用来描述随机事件的“混乱”程度,也即该随机事件所有结果所带来平均不确定性:
显然,我们可以看出 信息熵的计算就是信息量的数学期望。
3.信息熵的特点
最后,我们再简单聊一聊信息熵的特点:
(1) 信息熵与事件的可能性数量有关,在概率均等的情况下,存在的可能越多,信息熵越大,信息也约不确定;
-
假如我们现在投掷一枚硬币,正面和反面的概率都是均等的1/2,那么投掷一枚硬币的信息熵为:
-
假如我们现在改为投掷一枚骰子,并且每个数字出现的概率都是均等的,为1/6,那么投掷一枚骰子的信息熵为:
(2) 信息熵与事件的概率分布情况有关,概率分布越平均,信息熵越大,当所有概率均等的情况下,信息熵达到最大;
-
我们知道投掷一枚正反面出现概率都均等为1/2的硬币,信息熵为1.
-
而现在我们刚好有一枚质量分布不均的硬币,它出现正面的概率为3/4,而出现反面的概率只有1/4,那么投掷一枚这样硬币的信息熵为:
近期热门文章精选(点击标题即可阅读):
3. 从前,有一位统计学家,他在趟过一条平均水位不足1米深的河流时......
5. 重磅|李飞飞担任谷歌云机器学习最新负责人(附最全报道)
注:由于最近老撕比较忙,所以有些信息没有及时查看回复(微信规定48小时没有回复的话,则不能再次回复),所以如果浩彬老撕没有及时回复,大家可以再次留言。
作者简介:浩彬老撕
好玩的IBM数据工程师,
立志做数据科学界的段子手,
致力知识分享,每月至少一次送书活动
本文由浩彬老撕 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。
以上所述就是小编给大家介绍的《如何通俗地理解决策树中的信息熵》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!
猜你喜欢:本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
Python高性能(第2版)
[加] 加布丽埃勒•拉纳诺(Gabriele Lanaro) / 袁国忠 / 人民邮电出版社 / 2018-8 / 59.00元
本书是一本Python性能提升指南,展示了如何利用Python的原生库以及丰富的第三方库来构建健壮的应用程序。书中阐释了如何利用各种剖析器来找出Python应用程序的性能瓶颈,并应用正确的算法和高效的数据结构来解决它们;介绍了如何有效地利用NumPy、Pandas和Cython高性能地执行数值计算;解释了异步编程的相关概念,以及如何利用响应式编程实现响应式应用程序;概述了并行编程的概念,并论述了如......一起来看看 《Python高性能(第2版)》 这本书的介绍吧!