1. Classic Vector Model

每个词项用一个term vector表示
term vector是线性无关的
文档向量和查询向量可以被词向量的线性组合表示
IR&IE笔记:向量空间模型与扩展的向量空间模型
IR&IE笔记:向量空间模型与扩展的向量空间模型

例如,下图是一个文档向量被两个词项向量所表示:
IR&IE笔记:向量空间模型与扩展的向量空间模型
两个文档的相似程度可以用两向量的余弦夹角来进行度量,夹角越小证明相似度越高。
IR&IE笔记:向量空间模型与扩展的向量空间模型
但此模型的缺点是假设词向量之间相互独立且正交,未考虑词项之间的相关性。
IR&IE笔记:向量空间模型与扩展的向量空间模型
查询向量q和文档向量d的表示方法如下:
IR&IE笔记:向量空间模型与扩展的向量空间模型
同样利用余弦相似度计算相关性。
IR&IE笔记:向量空间模型与扩展的向量空间模型
w i , j w_{i,j} wi,j w i , q w_{i,q} wi,q的计算方法如下:
首先计算 f i , j f_{i,j} fi,j
IR&IE笔记:向量空间模型与扩展的向量空间模型
f r e q i , j freq_{i,j} freqi,j代表文档dj中词项ki的频率
分母表示文档dj中频率最高的词项的频率
N: 文档总数
n i n_i ni: 词项 k i k_i ki出现的文档的数目

IR&IE笔记:向量空间模型与扩展的向量空间模型
计算出来做什么用呢?
它们相当于文档向量和查询向量在(词)向量空间的坐标
如下图中的d1 = (2,3,5),d2 = (3,7,1),q = (0,0,2)
IR&IE笔记:向量空间模型与扩展的向量空间模型

总结向量空间模型:

优点:
1.简洁直观,可以应用到很多领域(文本分类、生物信息学等)2.支持部分匹配和近似匹配,结果可以排序 3. 检索效果不错

缺点:
1.理论上支持不够,基于直觉的经验性公式。 2. 特征项之间相互独立的假设与实际不符。

2. Generalized Vector Space Model

项矢量线性无关,但两两之间不正交。
项矢量不是空间的基,而是由更小的部分组成。
将项矢量扩展到 2 t 2^t 2t维空间上。
IR&IE笔记:向量空间模型与扩展的向量空间模型
这里定义一个miniterm:
IR&IE笔记:向量空间模型与扩展的向量空间模型
t维空间扩展成 2 t 2^t 2t维空间后两两正交
索引项在文档内的共现:索引项的相关度
接下来举例进行计算:
IR&IE笔记:向量空间模型与扩展的向量空间模型
示例3维变成8维,共有3个索引项,20篇文档
第一个索引项矢量如何用8维扩展基矢量表示:
C 1 , 5 C_{1,5} C1,5:这里的1是指term 1,而m5 = (1,0,0),因此去寻找只含有第一个索引项的文档,分别是d1、d4,所以计算w11,w14
C 1 , 6 C_{1,6} C1,6:同时含有第一个、第三个索引项,不含有第二个索引项的文档是d12
C 1 , 7 C_{1,7} C1,7:同时含有第一个、第二个索引项,不含有第三个索引项的文档是d11、 d13、 d14、 d16、 d17、 d18、 d20
C 1 , 8 C_{1,8} C1,8:同时含有第一、二、三个索引项的文档是d15、 d19

直观地看,只包含k1的文档越多, C 1 , 5 C_{1,5} C1,5越大, k 1 ⃗ \vec{k_1} k1 在扩展的向量空间中就越靠近 m 5 ⃗ \vec{m_5} m5
IR&IE笔记:向量空间模型与扩展的向量空间模型
扩展基矢量两两之间正交,但不相互独立。
IR&IE笔记:向量空间模型与扩展的向量空间模型

两个索引项矢量的乘积反映了这两个索引项的共现程度,这就解决了之前不考虑词项相关性的问题。
用这种新的扩展矢量方法表示文档和请求
也采用cosine计算文档和请求的相关度

给定检索请求
计算第一个文档的相关度
经典向量空间模型的算法
扩展向量空间模型的算法:考虑了索引项之间的相关度
IR&IE笔记:向量空间模型与扩展的向量空间模型
相当于利用索引项相关矩阵扩展了查询请求
IR&IE笔记:向量空间模型与扩展的向量空间模型
特别的,当索引项相关矩阵是单位矩阵时,扩展向量空间模型与经典向量空间模型相同。
IR&IE笔记:向量空间模型与扩展的向量空间模型

相关文章: