如何通俗地理解决策树中的信息熵

栏目: 编程工具 · 发布时间: 8年前

内容简介:如何通俗地理解决策树中的信息熵

如何通俗地理解决策树中的信息熵

如何通俗地理解决策树中的信息熵

好,开篇之前,我们先做好定义:

如何通俗地理解决策树中的信息熵

信息熵?这是什么玩意,它代表了什么?信息量为什么又和概率有关?

好了,为了解决问题,让我们还是回到定义本身中来。

1.信息量

第一个问题:信息是什么?它是可以计算的吗?

我们先从现实出发,看看信息是否有量化的可能。 例如今天阿包告诉我,“广州明天的太阳会从东边升起。”

如何通俗地理解决策树中的信息熵

这时我就想,这话虽然很正确,但是我觉得没什么用啊,太阳从东边升起不是确定的事件吗,还有说的价值吗? 所以,我的想法是这句话的信息量为零。

这时候,阿包看着我不屑的表情,顿时狡猾一笑说, 虽然明天广州的太阳还是从东边升起,但是明天广州会下雪哦~

如何通俗地理解决策树中的信息熵

听到这里,我就觉得震惊了,顿时就说“ 这不太可能把,你这话信息量好大,我赶紧去查查天气预报。” (注: 2016 年1月24日中午前后 ,广州气象局确认这是广州城区新中国成立以来第一次降雪)

从上面的例子我们就发现,信息确实可以划分出信息量大小的,而且我们发现这件事情的信息量大小,是和这件事情的发生概率相关,好了,既然如此,那么我们该如何构造信息量的表达式?

我们先提炼一下信息量的表达式应该满足的条件:

(1)  信息量和事件发生的概率有关,当事件发生的概率越低,传递的信息量越大;

(2)  信息量应当是非负的,必然发生的信息量为0;

(3)  两个事件的信息量可以相加,并且两个独立事件的联合信息量应该是他们各自信息量的和;

对于(1),前面我们已经讨论过了,不再阐述;

对于(2),一个信息要么帮助我们降低不确定性,要么不能降低不确定性,但是不会出现知道这个消息后,现有的消息会消失的情况;

对于(3)对于两个独立事件,因为p(AB)=p(A)p(B),若信息量的计算公式为f(p(x)),则应当有f(p(AB))=f(p(A))+f(p(B))

根据上述条件,信息量的基本计算公式应当满足如下形式:

如何通俗地理解决策树中的信息熵

底数只要满足取值大于1即可,但一般来说,我们可以遵循信息论的传统用法,取底数a=2,即

如何通俗地理解决策树中的信息熵

2.信息熵

解决了信息量的计算问题,接下来第二个问题,我们聊聊熵这个概念。

熵(Entropy)这个概念最早出现在热力学中,是由德国物理学家及数学家鲁道夫·尤利乌斯·埃马努埃尔·克劳修斯所提出,它的物理意思表示该体系的混乱程度,简单地说,如果该体系下的分子运动杂乱程度增加,该体系的熵也随着增加。

类比下来,我们刚刚讨论了一个事件的信息量大小,那么对于这个事件发生之前,我们怎么衡量呢?因此,在1948年,信息论之父克劳德·艾尔伍德·香农提出了信息熵的概念, 用来描述随机事件的“混乱”程度,也即该随机事件所有结果所带来平均不确定性:

如何通俗地理解决策树中的信息熵

显然,我们可以看出 信息熵的计算就是信息量的数学期望。

3.信息熵的特点

最后,我们再简单聊一聊信息熵的特点:

(1)  信息熵与事件的可能性数量有关,在概率均等的情况下,存在的可能越多,信息熵越大,信息也约不确定;

  • 假如我们现在投掷一枚硬币,正面和反面的概率都是均等的1/2,那么投掷一枚硬币的信息熵为:

如何通俗地理解决策树中的信息熵

  • 假如我们现在改为投掷一枚骰子,并且每个数字出现的概率都是均等的,为1/6,那么投掷一枚骰子的信息熵为:

如何通俗地理解决策树中的信息熵

(2)  信息熵与事件的概率分布情况有关,概率分布越平均,信息熵越大,当所有概率均等的情况下,信息熵达到最大;

  • 我们知道投掷一枚正反面出现概率都均等为1/2的硬币,信息熵为1.

  • 而现在我们刚好有一枚质量分布不均的硬币,它出现正面的概率为3/4,而出现反面的概率只有1/4,那么投掷一枚这样硬币的信息熵为:

如何通俗地理解决策树中的信息熵

如何通俗地理解决策树中的信息熵

近期热门文章精选(点击标题即可阅读):

1 . 干货教程|可能是最方便好用的文字云工具

2. (理论+案例)如何通俗地理解极大似然估计?

3. 从前,有一位统计学家,他在趟过一条平均水位不足1米深的河流时......

4. 数据收集宝鉴|教你找到合适的数据源(1)——国家数据

5. 重磅|李飞飞担任谷歌云机器学习最新负责人(附最全报道)

注:由于最近老撕比较忙,所以有些信息没有及时查看回复(微信规定48小时没有回复的话,则不能再次回复),所以如果浩彬老撕没有及时回复,大家可以再次留言。

如何通俗地理解决策树中的信息熵

作者简介:浩彬老撕

好玩的IBM数据工程师,

立志做数据科学界的段子手,

致力知识分享,每月至少一次送书活动

如何通俗地理解决策树中的信息熵 如何通俗地理解决策树中的信息熵

本文由浩彬老撕 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。

转载、引用前需联系作者,并署名作者且注明文章出处。

本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。


以上所述就是小编给大家介绍的《如何通俗地理解决策树中的信息熵》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

Designing Programmes

Designing Programmes

Karl Gerstner / Springer Verlag / 2007 / $499.00

Karl Gerstnera (TM)s work is a milestone in the history of design. One of his most important works is Designing Programmes, which is presented here in a new edition of the original 1964 publication. I......一起来看看 《Designing Programmes》 这本书的介绍吧!

SHA 加密
SHA 加密

SHA 加密工具

UNIX 时间戳转换
UNIX 时间戳转换

UNIX 时间戳转换

HEX HSV 转换工具
HEX HSV 转换工具

HEX HSV 互换工具