文章目录
潜在语义分析(latent semantic analysis, LSA)是一种无监督方法,主要用于文本的话题分析,其特点是通过矩阵分解发现文本与单词之间的基于话题的语义关系。潜在语义分析是非概率的话题分析方法,将文本集合表示为 单词-文本矩阵,对该矩阵进行进行奇异值分解,从而得到 话题向量空间和 文本在话题向量空间中的表示。也可以使用矩阵的因子分解方法进行分解。
单词向量空间
基本想法:给定一个文本,用一个向量表示该文本的”语义“,向量的每一维对应一个单词,其数值为该单词在该文本中出现的频数或权值。
给定 n n n 个文本集合 D = { d 1 , d 2 , … d n } D = \{d_1,d_2,\ldots d_n\} D={
d1,d2,…dn},以及在所有文本中出现的 m m m 个单词的集合 W = { w 1 , w 2 , … , w m } W = \{w_1,w_2,\ldots,w_m\} W={
w1,w2,…,wm} 。单词-文本矩阵如下:
X = [ x 11 x 12 ⋯ x 1 n x 21 x 22 ⋯ x 2 n ⋮ ⋮ ⋮ x m 1 x m 2 ⋯ x m n ] X= \left[ \begin{matrix} x_{11}&x_{12}&\cdots&x_{1n}\\ x_{21}&x_{22}&\cdots&x_{2n}\\ \vdots&\vdots&&\vdots\\ x_{m1}&x_{m2}&\cdots&x_{mn} \end{matrix} \right] X=⎣⎢⎢⎢⎡x11x21⋮xm1x12x22⋮xm2⋯⋯⋯x1nx2n⋮xmn⎦⎥⎥⎥⎤
每个列向量对应一个文本,每一行对应单词 w i w_i wi 。
元素 x i j x_{ij} xij代表单词 w i w_i wi在文本 d j d_j dj中出现的频数或者权值。权值采用单词词频—逆文本频率(TF—IDF)表示,其定义是:
T F I D F i j = t f i j t f ⋅ j log d f d f i i = 1 , 2 , ⋯ , m ; j = 1 , 2 , ⋯ , n TFIDF_{ij}=\frac{tf_{ij}}{tf_{\cdot j}}\log\frac{\mathrm{d}f}{\mathrm{d}f_i}\\ i=1,2,\cdots,m;\\ j=1,2,\cdots,n TFIDFij=tf⋅jtfijlogdfidfi=1,2,⋯,m;j=1,2,⋯,n
式中: t f i j tf_{ij} tfij 是单词 w i w_i wi 出现在文本 d j d_j dj 中的频数, t f . j tf_{.j} tf.j 是文本 d j d_j dj 中出现所有单词的频数之和, d f i df_i dfi 是含有单词 w i w_i wi 的文本数, d f df df 是文本集合D的全部文本集。一个单词在一个文本中出现的频数越高,这个单词在这个文本中的重要度就越高,即 t f i j t f ⋅ j \frac{tf_{ij}}{tf_{\cdot j}} tf⋅jtfij 越大 ;一个单词在整个文本集合中出现的文本数越少,这个单词就越能表示其所在文本的特点,重要度就越高,即 log d f d f i \log\frac{\mathrm{d}f}{\mathrm{d}f_i} logdfidf 越大;一个单词在一个文本的TF-IDF是两种重要度的积,表示综合重要度。
单词-文本矩阵的每个列向量对应一个文本,两个列向量之间的的余弦相似度表示对应文本之间的语义相似度。
缺点:单词向量通常是稀疏的。没有考虑到在自然语言处理中的一词多义以及多词一义,所以基于词向量的相似度计算不精确。
话题向量空间
(1)话题向量空间
两个文本的语义相似度可以体现在两者的话题相似度上,一个文本有若干个话题。
给定 n n n 个文本集合 D = { d 1 , d 2 , … d n } D = \{d_1,d_2,\ldots d_n\} D={
d1,d2,…dn},以及在所有文本中出现的 m m m 个单词的集合 W = { w 1 , w 2 , … , w m } W = \{w_1,w_2,\ldots,w_m\} W={
w1,w2,…,wm} 。单词-文本矩阵如下:
X = [ x 11 x 12 ⋯ x 1 n x 21 x 22 ⋯ x 2 n ⋮ ⋮ ⋮ x m 1 x m 2 ⋯ x m n ] X=\left[\begin{matrix}x_{11}&x_{12}&\cdots&x_{1n}\\x_{21}&x_{22}&\cdots&x_{2n}\\\vdots&\vdots&&\vdots\\x_{m1}&x_{m2}&\cdots&x_{mn}\end{matrix}\right] X=⎣⎢⎢⎢⎡x11x21⋮xm1x12x22⋮xm2⋯⋯⋯x1nx2n⋮xmn⎦⎥⎥⎥⎤
假设所有文本共含有 k k k 个话题,单词—话题矩阵如下:
T = [ t 11 t 12 ⋯ t 1 k t 21 t 22 ⋯ t 2 k ⋮ ⋮ ⋮ t m 1 t 12 ⋯ t m k ] T=\left[ \begin{matrix} &t_{11} &t_{12} &\cdots &t_{1k} \\ &t_{21} &t_{22} &\cdots &t_{2k} \\ &\vdots &\vdots & &\vdots \\ &t_{m1} &t_{12} &\cdots &t_{mk} \\ \end{matrix} \right] T=⎣⎢⎢⎢⎡

本文探讨了文本分析中的主题建模技术,包括潜在语义分析(LSA)和非负矩阵分解(NMF),并详细讲解了这两种方法的原理、算法实现及应用。
详解&spm=1001.2101.3001.5002&articleId=106311160&d=1&t=3&u=46f37c0073d94bab80ea87c7c96787ff)
1520

被折叠的 条评论
为什么被折叠?



