百度百科:
矢量(英语:vector)是数学、物理学和工程科学等多个自然科学中的基本概念,指一个同时具有大小和方向的几何对象,因常常以箭头符号标示以区别于其它量而得名。
1. 长度相等且方向相同的向量叫做相等。
2.实数λ和向量a的乘积是一个向量。
实数λ叫做向量a的系数,乘数向量λa的几何意义就是将表示向量a的有向线段伸长或压缩。
当λ>0时,λa与a同方向
当λ<0时,λa与a反方向;
3. 加法 (平行四边形法则)
减法
a·b=|a|·|b|·cos〈a,b〉 计算向量余玄的办法。非常有用。这是搜索引擎计算More Like This 的依据。也是自动分类的依据。
还有更多的知识。这里关注一下搜索引擎的使用More Like This。多维向量空间。
如何计算两个文档的相似度呢?
就是把两个文档的词作为一个列表(这个就是多维坐标了)
计算每个词TF-IDF 值。如果文档中不包含对应的词,那对应的值就是0.
例如:文档包含的词
doc1: we are happy
doc2: you are happy too. right.
词坐标: 【we you are happy too right]
vector of doc1: [x1, 0 ,x2, x3, 0 ,0]
vecotr of doc2: [0 , y1 ,y2, y3, y4, y5]
cos(v1,v2)=(x2*y2+x3*y3)/ |v1||v2| 这个结果介于0-1直接。 如果结果值越小,证明越不相关。越接近1,证明两条向量越接近,也就是相似。
直角三角形ABC中,
角A的正弦值就等于角A的对边比斜边
余弦等于角A的邻边比斜边
问题是: 如何计算x1,x2,x3,y1,y2,y3,y.......的值呢??