Latent semantic indexing是一项基于SVD分解的语义级别的文本索引技术。

具体步骤如下:

一、创建矩阵

X 的行为词,列为文档,X[ i, j ]为第i个词在第j篇文档之中出现的次数。对X进行SVD分解。得到

LSI note

T和D都是正交向量,S是奇异值的对角阵。

LSI note

得到T和D之后,就可以对原坐标进行变换,将较大奇异值所对应的特征向量保留下来。使T’和D’对原坐标进行变换,得到语义空间的坐标。提供三种比较,

1. 词与词之间的比较

LSI note

2. 文档与文档之间的比较

LSI note

3. 词与文档之间的比较

LSI note

二、检索

例如,我们新输入一串关键词(在这里我们看作是小型的文档)。我们的目标是找出与我们输入的关键词语义相近的一系列文档。对关键词建立矩阵Xq

LSI note

然后,Dq就可以像D的行向量一样,用来乘以S1/2或者S,来和TS1/2或者DS的行做cos比较了。

参考照料为:indexing by latent semantic analysis 1990

相关文章:

  • 2022-01-08
  • 2022-12-23
  • 2021-04-12
  • 2021-09-23
猜你喜欢
  • 2021-07-09
  • 2021-12-27
  • 2021-04-26
  • 2021-08-15
  • 2021-08-04
  • 2021-11-18
  • 2021-05-15
相关资源
相似解决方案