聚类分析高级概念解析
1. 数据点分配与聚类评估
在聚类分析中,数据点分配到簇以及簇的评估是重要的步骤。给定中心点(medoids)及其相关的维度集合,通过对数据库进行一次遍历,将数据点分配到中心点。这里使用曼哈顿分段距离(Manhattan segmental distance)来计算数据点到中心点的距离。
曼哈顿分段距离与曼哈顿距离类似,但它针对每个中心点相关的不同维度数量进行了归一化。计算该距离时,仅使用相关维度集合计算曼哈顿距离,然后除以相关维度的数量。数据点会被分配到与其曼哈顿分段距离最小的中心点所在的簇。
确定簇之后,聚类的目标函数通过数据点到其各自簇的质心的平均曼哈顿分段距离来评估。如果聚类目标得到改善,则更新最优解 $S_{best}$。
操作步骤如下:
1. 确定中心点及其相关维度集合。
2. 遍历数据库,对每个数据点:
- 计算其到各个中心点的曼哈顿分段距离。
- 将数据点分配到距离最小的中心点所在的簇。
3. 计算每个簇的数据点到质心的平均曼哈顿分段距离,评估聚类目标函数。
4. 若聚类目标改善,更新 $S_{best}$。
2. 不良中心点的确定
从 $S_{best}$ 中确定“不良”中心点的方法如下:
- 包含最少数据点的簇的中心点是不良中心点。
- 任何包含少于 $(n/k) \cdot minDeviation$ 个数据点的簇的中心点也是不良中心点,其中 $minDeviation$ 是一个小于 1 的常数,典型值设为 0.1。
这里的假设是,不良中心点对应的簇较小,可能是因为它们是离群
超级会员免费看
订阅专栏 解锁全文

51

被折叠的 条评论
为什么被折叠?



