图说十大数据挖掘算法(一)K最近邻算法

栏目: 数据库 · 发布时间: 7年前

内容简介：用官方的话来说，所谓K近邻算法，即是给定一个训练数据集，对新的输入实例，在训练数据集中找到与该实例最邻近的K个实例（也就是上面所说的K个邻居），这K个实例的多数属于某个类，就把该输入实例分类到这个类中。如果你之前没有学习过K最近邻算法，那今天几张图，让你明白什么是K最近邻算法。

图说十大数据挖掘算法(一)K最近邻算法

用官方的话来说，所谓K近邻算法，即是给定一个训练数据集，对新的输入实例，在训练数据集中找到与该实例最邻近的K个实例（也就是上面所说的K个邻居），这K个实例的多数属于某个类，就把该输入实例分类到这个类中。

如果你之前没有学习过K最近邻算法，那今天几张图，让你明白什么是K最近邻算法。

图说开始

先来一张图，请分辨它是什么水果

图说十大数据挖掘算法(一)K最近邻算法

很多同学不假思索，直接回答：“菠萝”！！！

仔细看看同学们，这是菠萝么？那再看下边这这张图。

图说十大数据挖掘算法(一)K最近邻算法

这两个水果又是什么呢？

这就是菠萝与凤梨的故事，下边即将用菠萝和凤梨，给大家讲述怎么用一个算法来知道这是个什么水果的过程，也就是什么是K最近邻算法。

（给非吃货同学们补充一个生活小常识，菠萝的叶子有刺，凤梨没有。菠萝的凹槽处是黄色的，而凤梨的凹槽处是绿色的，以后千万不要买错哦！！！）

图说十大数据挖掘算法(一)K最近邻算法

上边这张图中，我们定义了两个维度的特征：

一个是叶子是否有刺
一个是凹槽处是否的颜色

问：一个新的水果来了，我们怎么判断他是什么水果呢？

图说十大数据挖掘算法(一)K最近邻算法

方法如下：

图说十大数据挖掘算法(一)K最近邻算法

（看这个神秘水果与哪个水果的举例近。同等举例，看离它最近的水果中，哪个水果多）

根据上图中，我们判断，这个神秘水果那就是菠萝啦，原因是离它近的水果中菠萝比凤梨多。

相信到这里，大家都已经明白了什么是K最近邻算法了吧！

下边来具体学习一下距离的计算

假设我们有3中不知名的水果

图说十大数据挖掘算法(一)K最近邻算法

我们现在根据其大小和颜色的特征，把它们放入图表中

图说十大数据挖掘算法(一)K最近邻算法

那如我们如何判断他们有多像呢？

图说十大数据挖掘算法(一)K最近邻算法

具体的计算，可以使用毕达哥拉斯公式

图说十大数据挖掘算法(一)K最近邻算法

那现在来计算水果A和水果B之间的距离

图说十大数据挖掘算法(一)K最近邻算法

最后的计算结果为1

那么同理，如果要让你去做一个推荐系统，我们可以把人的用户画像放在一个表格里

图说十大数据挖掘算法(一)K最近邻算法

如果我们给其中一个人推荐他可能感兴趣的书、电影、美食等，就可以看一下离他最近距离的这些人都在做什么，然后就套用下边的公式就可以了

图说十大数据挖掘算法(一)K最近邻算法

无论多少维度，直接套用就可以了。

图说算法，是不是非常的简单就理解了KNN。

祝大家学习愉快，欢迎转发。

以上所述就是小编给大家介绍的《图说十大数据挖掘算法(一)K最近邻算法》，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对码农网的支持！

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

CSS 3实战

成林 / 机械工业出版社 / 2011-5 / 69.00元

全书一共分为9章，首先从宏观上介绍了CSS 3技术的最新发展现状、新特性，以及现有的主流浏览器对这些新特性的支持情况；然后详细讲解了CSS 3的选择器、文本特性、颜色特性、弹性布局、边框和背景特性、盒模型、UI设计、多列布局、圆角和阴影、渐变、变形、转换、动画、投影、开放字体、设备类型、语音样式等重要的理论知识，这部分内容是本书的基础和核心。不仅每个知识点都配有丰富的、精心设计的实战案例，而且详细......一起来看看《CSS 3实战》这本书的介绍吧!

码农工具

图说十大数据挖掘算法(一)K最近邻算法

CSS 3实战

Markdown 在线编辑器

RGB HSV 转换

HEX HSV 转换工具