交叉熵损失函数到底是什么原理?

栏目: 数据库 · 发布时间: 6年前

内容简介:【推荐系统与机器学习导读】我们在用各种机器学习框架的时候会经常用 Cross Entropy 交叉熵损失函数, 那么在机器学习中什么是熵? 交叉熵是怎么来的? 本文带你了解关于熵的基础知识一条信息的信息量大小与不确定性有很大关系, 一句话如果需要很多外部信息才能确定, 我们就称这句话信息量比较大, 比如你听 "西双版纳下雪了", 那你就需要看天气预报, 问当地人查证(应为云南很少下雪), 如果你说"人一天要吃三顿饭", 那么这条信息的信息量就小, 因为这条信息比较确定

【推荐系统与机器学习导读】我们在用各种机器学习框架的时候会经常用 Cross Entropy 交叉熵损失函数, 那么在机器学习中什么是熵? 交叉熵是怎么来的? 本文带你了解关于熵的基础知识

信息量

一条信息的信息量大小与不确定性有很大关系, 一句话如果需要很多外部信息才能确定, 我们就称这句话信息量比较大, 比如你听 "西双版纳下雪了", 那你就需要看天气预报, 问当地人查证(应为云南很少下雪), 如果你说"人一天要吃三顿饭", 那么这条信息的信息量就小, 因为这条信息比较确定

那我们将事件 x0  的信息量定义如下, 其中 p(x0) 表示事件的发生概率, 可以看到如果事件100%发生, 则信息量为0

交叉熵损失函数到底是什么原理?

坐标图为

交叉熵损失函数到底是什么原理?

信息量是对单个时间来说的, 但实际情况一件事有多重可能, 比如骰子可能有6种情况, 那么熵就是表示所有可能事件所产生的信息量期望

交叉熵损失函数到底是什么原理?

相对熵

相对熵又叫做KL散度, 用于衡量同一组随机变量x的两个分布 p(x)q(x) 的差异, 在机器学习中, p(x) 常用于表示样本的真实分布, q(x) 表示预测的分布, 机器学习就是不断的学习去让 q(x) 来准确的拟合真实分布

交叉熵损失函数到底是什么原理?

相对熵越小, 表明两个分布越接近, 一个太空蠕虫的例子: https://www.jianshu.com/p/7b7c0777f74d

交叉熵

我们将相对熵变形

交叉熵损失函数到底是什么原理?

前半部分就是 p(x) 的熵, 为一个常量, 后半部分就是我们的交叉熵

交叉熵损失函数到底是什么原理?

进而交叉熵越小, 真实分布于预测分布越发一致, 也就是说效果越好

在我们上一篇文章中, 逻辑回归的损失函数定为

交叉熵损失函数到底是什么原理?

由于逻辑回归是一个伯努利分布, 你会发现 逻辑回归的损失函数, 本质上就是 交叉熵


以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

零边际成本社会

零边际成本社会

[美]杰里米·里夫金 / 赛迪研究院专家组 / 中信出版社 / 2014-11-1 / 49.00

在这本书中,《第三次工业革命》作者杰里米•里夫金开创性地探讨了极致生产力、协同共享、产消者、生物圈生活方式等全新的概念,详细地描述了数以百万计的人生产和生活模式的转变。他认为,“产消者”正在以近乎零成本的方式制作并分享自己的信息、娱乐、绿色能源和3D打印产品。他们也通过社交媒体、租赁商、合作组织以极低或零成本的模式分享汽车、住房、服装和其他物品;学生更多地参与到基于零成本模式的开放式网络课程…… ......一起来看看 《零边际成本社会》 这本书的介绍吧!

JS 压缩/解压工具
JS 压缩/解压工具

在线压缩/解压 JS 代码

在线进制转换器
在线进制转换器

各进制数互转换器

随机密码生成器
随机密码生成器

多种字符组合密码