吴恩达机器学习系列20:K - 均值算法

栏目: 数据库 · 发布时间: 5年前

内容简介:它会将这个数据集划分成两类,每一个绿圈就是一类。

在无监督学习中,我们会把没有标签的数据集交给算法,让它自动地发现数据之间的关系, 聚类算法( Clustering algorithm 就是一种无监督学习算法。它会自动地将无标签的数据集进行分类,如下图:

吴恩达机器学习系列20:K - 均值算法

它会将这个数据集划分成两类,每一个绿圈就是一类。

在聚类算法中,最常见的就是 K-均值算法( K-means algorithm ,我们先来看看这个算法在下面这个数据集中是如何进行工作的。

吴恩达机器学习系列20:K - 均值算法

如果将数据集划分成两类的话,第一步随机选取两个点作为 聚类中心 (通常不是这么选择,为了更方便的理解,先这么选,在后面我会告诉你正确应该如何去选择)

吴恩达机器学习系列20:K - 均值算法

对于每一个样本点,离哪一个聚类中心近就会被染成相应的颜色,划归成相同的一类:

吴恩达机器学习系列20:K - 均值算法

然后每一类都会计算出离那些数据集最近的一个位置,将聚类中心移动到那个位置:

吴恩达机器学习系列20:K - 均值算法

之后再进行染色:

吴恩达机器学习系列20:K - 均值算法

再移动,再染色,再移动,再染色,再移动。。。(人类的本质是什么 )不断地进行循环,直到聚类中心不再移动为止:

吴恩达机器学习系列20:K - 均值算法

现在就成功地划分出两类不同的数据集了。

再回过头来看 K-均值算法( K-means algorithm :它需要传入两个参数,需要 聚类的数量 K 训练集

吴恩达机器学习系列20:K - 均值算法

一开始,会根据传入聚类的数量 K 随机初始化聚类中心,然后不断地去循环内部的两个循环:

吴恩达机器学习系列20:K - 均值算法

红色部分表示每一个样本点选择离它最近的聚类中心染成相应的颜色,也就是簇分配,我们将每一个样本点划分到所属的聚类中心。实际上就是最小化这个代价函数:

吴恩达机器学习系列20:K - 均值算法

蓝色部分表示不断地去移动聚类中心使它到跟它颜色相同的样本点的距离最小。

最后来补充一下如何初始化聚类中心。之前说过,随机位置初始化这种方法是不可取的,正确的操作是随机选取样本点所在的位置作为聚类中心,为了避免陷入到局部最优解中,我们要多次选取,挑选一个代价函数最小的作为我们的选择,这样就会达到最优的效果。

ps. 本篇文章是根据吴恩达机器学习课程整理的学习笔记。如果想要一起学习机器学习,可以关注微信公众号「 SuperFeng 」,期待与你的相遇。

吴恩达机器学习系列20:K - 均值算法


以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

PHP、MySQL和Apache编程导学

PHP、MySQL和Apache编程导学

梅隆尼 / 李军 / 2009-1 / 59.00元

《PHP、MySQL和Apache编程导学(原书第4版)》介绍Web应用开发的强大组合工具:MySQL、Apache和PHP,共分为六个部分。第一部分引领读者深入了解、安装和配置MySQL、Apache和PHP。第二部分讲解PHP语言基础,包括数组和对象这样的结构化元素。第三部分介绍中级应用程序开发的主题,包括使用表单和文件、限制访问以及完成包含某个专门概念的小项目。第四部分介绍使用数据库的一般性......一起来看看 《PHP、MySQL和Apache编程导学》 这本书的介绍吧!

正则表达式在线测试
正则表达式在线测试

正则表达式在线测试

HSV CMYK 转换工具
HSV CMYK 转换工具

HSV CMYK互换工具