潜在语义分析（LSA）详解

最新推荐文章于 2025-08-11 14:36:13 发布

原创

最新推荐文章于 2025-08-11 14:36:13 发布 · 5.8k 阅读

标签

#算法 #机器学习 #nlp #自然语言处理

本文探讨了文本分析中的主题建模技术，包括潜在语义分析(LSA)和非负矩阵分解(NMF)，并详细讲解了这两种方法的原理、算法实现及应用。

文章目录

单词向量空间
话题向量空间
算法实现

潜在语义分析（latent semantic analysis, LSA）是一种无监督方法，主要用于文本的话题分析，其特点是通过矩阵分解发现文本与单词之间的基于话题的语义关系。潜在语义分析是非概率的话题分析方法，将文本集合表示为 单词-文本矩阵，对该矩阵进行进行奇异值分解，从而得到 话题向量空间和 文本在话题向量空间中的表示。也可以使用矩阵的因子分解方法进行分解。

单词向量空间

基本想法：给定一个文本，用一个向量表示该文本的”语义“，向量的每一维对应一个单词，其数值为该单词在该文本中出现的频数或权值。

给定 $n$ 个文本集合 $\{d_1,d_2,\ldots d_n\}$ ，以及在所有文本中出现的 $m$ 个单词的集合 $\{w_1,w_2,\ldots,w_m\}$ 。单词-文本矩阵如下：
$\left[ \begin{matrix} x_{11}&x_{12}&\cdots&x_{1n}\\ x_{21}&x_{22}&\cdots&x_{2n}\\ \vdots&\vdots&&\vdots\\ x_{m1}&x_{m2}&\cdots&x_{mn} \end{matrix} \right]$

每个列向量对应一个文本，每一行对应单词 $w_i$ 。
元素 $x_{ij}$ 代表单词 $w_i$ 在文本 $d_j$ 中出现的频数或者权值。权值采用单词词频—逆文本频率（TF—IDF）表示，其定义是：
$TFIDF_{ij}=\frac{tf_{ij}}{tf_{\cdot j}}\log\frac{\mathrm{d}f}{\mathrm{d}f_i}\\ i=1,2,\cdots,m;\\ j=1,2,\cdots,n$
式中： $tf_{ij}$ 是单词 $w_i$ 出现在文本 $d_j$ 中的频数， $tf_{.j}$ 是文本 $d_j$ 中出现所有单词的频数之和， $df_i$ 是含有单词 $w_i$ 的文本数， $d f$ 是文本集合D的全部文本集。一个单词在一个文本中出现的频数越高，这个单词在这个文本中的重要度就越高，即 $\frac{tf_{ij}}{tf_{\cdot j}}$ 越大；一个单词在整个文本集合中出现的文本数越少，这个单词就越能表示其所在文本的特点，重要度就越高，即 $\log\frac{\mathrm{d}f}{\mathrm{d}f_i}$ 越大；一个单词在一个文本的TF-IDF是两种重要度的积，表示综合重要度。

单词-文本矩阵的每个列向量对应一个文本，两个列向量之间的的余弦相似度表示对应文本之间的语义相似度。

缺点：单词向量通常是稀疏的。没有考虑到在自然语言处理中的一词多义以及多词一义，所以基于词向量的相似度计算不精确。

话题向量空间

（1）话题向量空间

两个文本的语义相似度可以体现在两者的话题相似度上，一个文本有若干个话题。

给定 $n$ 个文本集合 $\{d_1,d_2,\ldots d_n\}$ ，以及在所有文本中出现的 $m$ 个单词的集合 $\{w_1,w_2,\ldots,w_m\}$ 。单词-文本矩阵如下：
$X=\left[\begin{matrix}x_{11}&x_{12}&\cdots&x_{1n}\\x_{21}&x_{22}&\cdots&x_{2n}\\\vdots&\vdots&&\vdots\\x_{m1}&x_{m2}&\cdots&x_{mn}\end{matrix}\right]$

假设所有文本共含有 $k$ 个话题，单词—话题矩阵如下：
$T=\left[ \begin{matrix} &t_{11} &t_{12} &\cdots &t_{1k} \\ &t_{21} &t_{22} &\cdots &t_{2k} \\ &\vdots &\vdots & &\vdots \\ &t_{m1} &t_{12} &\cdots &t_{mk} \\ \end{matrix} \right]$