西瓜书第十章——聚类

最新推荐文章于 2026-01-22 10:52:00 发布

原创

最新推荐文章于 2026-01-22 10:52:00 发布 · 1k 阅读

·

26

·

请添加图片描述

聚类算法

聚类是一种经典的无监督学习方法，无监督学习的目标是通过对无标记训练样本的学习，发掘和揭示数据集本身潜在的结构与规律，即不依赖于训练数据集的类标记信息。聚类则是试图将数据集的样本划分为若干个互不相交的类簇，从而每个簇对应一个潜在的类别。

聚类算法全面解析

1.距离度量基础

1.1 闵可夫斯基距离族

通用公式：

$dist_{mk}(x_i,x_j) = (\sum_{u=1}^n x_{iu}-x_{ju} ^p)^{1/p}$
常见变体：

曼哈顿距离（p=1）： $dist = ∑x_i - y_i$
欧氏距离（p=2）： $√(∑(x_i - y_i)²)$

1.2 属性类型处理

由于属性分为连续属性与离散属性。连续属性可以直接使用距离公式计算，对于离散属性而言还要再分为有序属性和无序属性，有序属性可以连续化然后通过距离公式计算，而无需属性则需要使用one-hot编码再使用VDM距离法。

有序属性 直接参与计算身高：高(1)→中(0.5)→矮(0)
无序属性 VDM距离法性别：(男→[1,0], 女→[0,1])

VDM距离公式：

聚类性能评估

2.1 外部指标

由于无监督，因此不能对比标签来看聚类模型得准确率。因此此时找到一个外部得参考模型得输出作为伪标签，然后评价聚类效果
在这里插入图片描述

2.2 内部指标

基于聚类结果自身特性进行评估
在这里插入图片描述

原型聚类算法

3.1 K-Means

K-Means的思想十分简单，首先随机指定类中心，根据样本与类中心的远近划分类簇，接着重新计算类中心，迭代直至收敛。但是其中迭代的过程并不是主观地想象得出，事实上，若将样本的类别看做为“隐变量”（latent variable），类中心看作样本的分布参数，这一过程正是通过 EM算法的两步走 策略而计算出，其根本的目的是为了最小化平方误差函数E：

$E=\sum_{i=1}^k \sum_{x\in C_i} |x-\mu_i|^2$

标签

#聚类 #数据挖掘 #机器学习

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。