数学 – 任何人都可以告诉我为什么我们总是在机器学习中使用高斯分布?

栏目: 数据库 · 发布时间: 5年前

内容简介:你从数学思想的人那里得到的答案是“因为中心极限定理”.这表达了这样的想法:当你从几乎任何分布*中取出一堆随机数并将它们加在一起时,你会获得大致正态分布的东西.您添加的数字越多,它获得的正常分布就越多.我可以在Matlab / Octave中演示这个.如果我在1到10之间生成1000个随机数并绘制直方图,我会得到类似的结果如果不是生成一个随机数,而是生成其中的12个并将它们加在一起,并执行1000次并绘制直方图,我得到这样的结果:

你从数学思想的人那里得到的答案是“因为中心极限定理”.这表达了这样的想法:当你从几乎任何分布*中取出一堆随机数并将它们加在一起时,你会获得大致正态分布的东西.您添加的数字越多,它获得的正常分布就越多.

我可以在Matlab / Octave中演示这个.如果我在1到10之间生成1000个随机数并绘制直方图,我会得到类似的结果

如果不是生成一个随机数,而是生成其中的12个并将它们加在一起,并执行1000次并绘制直方图,我得到这样的结果:

我已经在顶部绘制了具有相同均值和方差的正态分布,因此您可以了解匹配的接近程度.你可以看到我用来生成这些图 at this gist 的代码.

在典型的机器学习问题中,您将遇到来自许多不同来源的错误(例如测量错误,数据输入错误,分类错误,数据损坏……)并且认为所有这些错误的综合影响大致是不合理的正常(当然,你应该经常检查!)

这个问题的更实用的答案包括:

>因为它使数学更简单.正态分布的概率密度函数是二次方的指数.取对数(就像你经常做的那样,因为你想最大化对数似然)给你一个二次方.区分这个(找到最大值)可以得到一组线性方程,这些方程很容易通过分析求解.

>这很简单 – 整个分布用两个数字来描述,即均值和方差.

>大多数人都会熟悉您的代码/论文/报告.

这通常是一个很好的起点.如果您发现您的分配假设给您的表现不佳,那么也许您可以尝试不同的分布.但您应该首先考虑其他方法来改善模型的性能.

*技术要点 – 它需要有限的方差.


以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

黑客秘笈

黑客秘笈

[美]彼得·基姆 / 徐文博、成明遥 / 人民邮电出版社 / 2015-7-1 / 45.00

所谓的渗透测试,就是借助各种漏洞扫描工具,通过模拟黑客的攻击方法,来对网络安全进行评估。 本书采用大量真实案例和集邮帮助的建议讲解了在渗透测试期间会面临的一些障碍,以及相应的解决方法。本书共分为10章,其内容涵盖了本书所涉的攻击机器/工具的安装配置,网络扫描,漏洞利用,人工地查找和搜索Web应用程序的漏洞,攻陷系统后如何获取更重要的信息,社工方面的技巧,物理访问攻击,规避杀毒软件的方法,破解......一起来看看 《黑客秘笈》 这本书的介绍吧!

图片转BASE64编码
图片转BASE64编码

在线图片转Base64编码工具

Base64 编码/解码
Base64 编码/解码

Base64 编码/解码

RGB HSV 转换
RGB HSV 转换

RGB HSV 互转工具