机器学习入门（九）：非监督学习：5种聚类算法+2种评估模型

原创

已于 2022-10-14 16:13:44 修改 · 2.7w 阅读

·

23

·

标签

#聚类 #python #机器学习 #人工智能 #算法

于 2020-05-06 18:27:15 首次发布

本文深入探讨五种主流聚类算法：K-means、层次聚类、GMM、DBSCAN及基于网格的聚类，详细解析算法原理、实现与局限性，辅以代码示例，助力读者掌握非监督学习中的数据分组技巧。

机器学习入门专栏其他章节：

机器学习入门（一）线性回归

机器学习入门（二）KNN

机器学习入门（三）朴素贝叶斯

机器学习入门（四）决策树

机器学习入门（五）集成学习

机器学习入门（六）支持向量机

机器学习入门（七）多项式回归

机器学习入门（八）主成分分析

文章目录

聚类算法(Clustering Algorithms)常用于进行非监督学习（unsupervised learning)，即它处理的是没有事先标记分类的数据。一共介绍五种常见聚类算法:
K-means
Hierarchical
GMM
DBSCAN(基于密度的聚类算法）
基于网格Grid的聚类算法

聚类算法

距离公式

在了解聚类算法如何实现之前，需要先了解几种常见的距离计算公式，因为聚类算法会通过距离判断两个点是否属于同一类。

欧式距离：假设有两个点 $x_1,y_1),(x_2,y_2)$ 则距离d为：

$d=\sqrt{(x_1-x_2)^2+(y_1-y_2)^2}$
扩展到更加一般的情况则是：
$d=(\Sigma_{i=1}^n (x_1^{(i)}-x_2^{(i)})^{2})^{1/2}$

曼哈顿距离:
对于两个点则是：
$d=|x_1-x_2|+|y_1-y_2|$

其他比较出名的还有Minkowski明氏距离, chebyshev切比雪夫距离，cosine余弦距离等，再次不过多展开。

K-means算法

算法过程如下：
（1）初始化聚类点centroid
（2）计算距离，将每个点分配到最近的聚类
（3）取每个聚类的平均值，获得新的聚类点centroid
（4）重复（2），（3）直到不再变化
用数学公式表达就是SSE(sum of squared error) 达到最小的时候:
$SSE=\Sigma_{j=1}^k \Sigma_{x\in {C_j}}d(x,m_j)^2$

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。