【发布时间】:2016-03-02 08:18:39
【问题描述】:
我想将系统中的每个基于文本的项目表示为向量空间模型中的向量。术语的值可以是负数或正数,它们反映了术语在正类或负类中的频率。零值表示中性 例如:
项目1 (-1,0,-5,4.5,2)
项目 2 (2,6,0,-4,0.5)
我的问题是:
1- 如何将我的向量标准化为 [0 到 1] 的范围,其中:
.5 表示归一化前为零
和.5>如果是肯定的
.5
我想知道是否有一个数学公式可以做这样的事情。
2- 归一化后相似性度量的选择会有所不同吗?例如,我可以使用余弦相似度吗?
3- 如果我在归一化之后进行降维会很困难吗??
提前致谢
【问题讨论】:
标签: text vector normalization vsm