1. 对称非负矩阵分解(Symmetric NMF)与Kernel K-means聚类
1.1 Kernel K-means聚类
假设数据的形式为一个m×n的矩阵X,n表示样本的个数,m表示一个样本的特征维度:![]()
聚成K个类,其中每个类的中心表示为:![]()
K-means的目标函数为最小化以下平方误差和:
(1)
用K个非负指示向量表示聚类的解,第k个类:
,![]()
很明显hk为单位向量且两两正交,令
,因此H为正交矩阵,满足
。
引入H,将公式(1)的范数展开,写成迹的形式:
(2)
由于公式(2)的第一项是常数,令
,K-means的目标函数可以转化为(注意非负性与正交性)
(3)
W矩阵(表示原始矩阵X点与点之间的相似性?)是标准的内积线性核矩阵,可以被替换成任意核函数。
利用非线性转换
,公式(1)可以转换为
(4)
忽略公式(4)的第一项(常数),令核矩阵
,核K-means聚类简化为公式(3)。
1.2 对称非负矩阵分解(Symmetric NMF)
对称非负矩阵分解
目标函数:
(5)
定理1. 松弛正交约束
的核K-means与对称非负矩阵分解等价。
证明:从K-means的目标函数公式(3)
着手,转换为
(6)
公式(6)中添加了两个常量
和
(因为有正交约束才成立),放松(忽略)公式(6)的正交约束即与对称非负矩阵分解等价。#
观察2. 对称非负矩阵分解
可以保留H的近似正交性。
证明:通过公式(6)的推导我们可以看出,对称非负矩阵分解的目标函数
等价于同时满足
(1)
;(2)
。
对于第2个目标函数,![]()
因为
,所以
近似为一个常量。
因此第2个目标函数可以变成
,确保了H(列)的近似正交性。
H的列正交性保证H的每一行只能有一个非零元素,意味着每一个数据样本只属于一个类。这就是hard-clustering(K-means)。
近似正交性放松了这个条件,每个数据样本可能属于多个类。这就是soft-clustering。
本文探讨了对称非负矩阵分解(SymmetricNMF)与Kernel K-means聚类的关系,揭示了二者在目标函数上的等价性,并讨论了如何通过非线性转换实现更复杂的聚类任务。

1853

被折叠的 条评论
为什么被折叠?



