先考虑这样一个问题,给定若干篇文档集合,怎么从中找出最相似的两篇?
相似性可以由余弦距离衡量。余弦距离公式:
c o s ( a → , b → ) = a → ∗ b → ∣ a ∣ ∗ ∣ b ∣ cos(\overrightarrow{a}, \overrightarrow{b}) = { \overrightarrow{a}*\overrightarrow{b} \over |a|*|b| } cos(a ,b )=aba b
因此只要把文档表示成向量就可以用余弦距离来衡量了。

在介绍LSA之前,先了解一下向量空间模型。

向量空间模型

假设有 M M M篇文档,词表长度为 N N N
向量空间模型把一篇文档表示成M维的向量,若某个单词没有出现在文档中,向量中的对应位置为0, 若单词出现在文档中,向量中对应位置是单词的tf-idf值。这样一篇文档就对应了一个长度为M的向量,就可以用余弦距离计算相似度。

从上面可以看出,向量空间模型具有这样的特点:

  1. 词与词之间是独立的,没有考虑词的顺序。
    比如: 小明喜欢小红和小红喜欢小明的文档向量是一样的。
  2. 文档向量长度取决于词表大小,大词表得到的文档向量比较稀疏。
  3. 无法处理一词多义和一义多词的情况
    一词多义比如:apple和华为出现在一起很可能表示手机,和香蕉出现在一起很可能表示水果。
    一义多词比如:用户搜索"automobile"一词,向量空间模型仅仅会返回包含“automobile”单词的页面,而实际含有“car”的页面也是用户需要的。

LSA

LSA对于一篇文档的初始表示也是和向量空间模型一样,使用词表维度的向量来表示,不过向量内的元素是单词在文档中出现的次数。
假设有 N N N篇文档,词表长度为 M M M,那么可以得到一个 M ∗ N M*N MN的矩阵。

奇异值分解,也就是SVD,有一个重要的性质。在奇异值矩阵中按照从大到小排列,奇异值的减少特别的快,在很多情况下,前10%甚至1%的奇异值的和就占了全部的奇异值之和的99%以上的比例。也就是说,我们也可以用最大的 K K K个的奇异值和对应的左右奇异向量来近似描述矩阵。也就是
A M ∗ N = U M ∗ M Σ M ∗ N V N ∗ N ≈ U M ∗ K Σ K ∗ K V K ∗ N A_{M*N} = U_{M*M}\Sigma_{M*N}V_{N*N} \approx U_{M*K}\Sigma_{K*K}V_{K*N} AMN=UMMΣMNVNNUMKΣKKVKN
主题模型(一)LSA(LSI)
把上面的SVD应用到主题模型,可以这么解释:k是主题数,经过SVD分解后, U i , l U_{i, l} Ui,l对应第i个单词档和第l个词义类的相关性,矩阵 U U U就是词-词义类矩阵, V l , j V_{l, j} Vl,j表示第j篇文档与第l个主题的相关性,矩阵 V V V是主题-文档矩阵。 Σ l , l \Sigma_{l,l} Σl,l表示第l个词义类与第l个主题之间的相关性。

这样通过一次SVD,就可以得到文档和主题的相关度,词和词义的相关度以及词义和主题的相关度。
下图是一个简单的例子。
主题模型(一)LSA(LSI)
从矩阵 U k U_k Uk我们可以看到词和词义之间的相关性。而从 V k V_k Vk可以看到3个文本和两个主题的相关性。大家可以看到里面有负数,所以这样得到的相关度比较难解释。

将原始的向量转化到一个低维的隐含语义空间中,而保留下来的维度(根据奇异值大小决定)所对应的奇异值就对应了每个“隐含语义”的权重,去掉的那些维度就相当于把那些不重要的“隐含语义”的权重赋值为0。

可以看到,LSA相比向量空间模型有一些优点,

  1. LSI可以捕获一些基础语言方面的信息,比如同义,解决了一义多词的问题,同义词对应相同或相似的主题。
  2. 降维可去除部分噪声,使特征更鲁棒,向量空间模型中,文档向量长度为词表长度,而这里文档向量长度为k。

但LSA也有很多不足之处:

  1. 没能解决一词多义
  2. LSA得到的不是一个概率模型,比如出现了负数等,所以对结果难以解释。
  3. 具有词袋模型的缺点,忽略了词序
  4. SVD分解复制度高
  5. 主题数k的选取对结果影响较大

参考:https://www.jianshu.com/p/9fe0a7004560
https://www.cnblogs.com/pinard/p/6805861.html

相关文章:

  • 2021-08-04
  • 2021-04-29
  • 2022-01-07
  • 2021-05-08
  • 2021-12-31
  • 2021-07-01
猜你喜欢
  • 2021-10-30
  • 2021-04-24
  • 2021-04-19
  • 2021-08-14
  • 2022-12-23
相关资源
相似解决方案