文本表示+向量空间模型

概念：文本挖掘算法不能直接在原始文本形式上处理。因此，在预处理阶段，将文本转化为更易计算机识别的信息，即对文本进行形式化处理。

模型：向量空间模型；概率模型；概念模型；

向量空间模型

1、主要步骤

（1）将文本的基本语言单位（字、词、词组、短语）抽取，组成特征项，用tn表示

（2）将tn按在文本中的重要性给出权重wn

（3）将文本抽象为（t1,w1,t2,w2,……,tn,wn）简化为（w1,w2,……,wn）即为文本的向量空间模型。

2、权值wn计算

（1）布尔权值：wn可取值1/0表示该特征是否在文本中出现。

（2）词频权值：wn用特征在文档中出现的频数表示

（3）TF/IDF权值：公式有两种，一种考虑文本信息量，另一种不考虑。下面举不考虑信息量的例子。

有很多不同的数学公式可以用来计算TF-IDF。这边的例子以上述的数学公式来计算。词频 (TF) 是一词语出现的次数除以该文件的总词语数。假如一篇文件的总词语数是100个，而词语“母牛”出现了3次，那么“母牛”一词在该文件中的词频就是3/100=0.03。一个计算文件频率 (IDF) 的方法是测定有多少份文件出现过“母牛”一词，然后除以文件集里包含的文件总数。所以，如果“母牛”一词在1,000份文件出现过，而文件总数是10,000,000份的话，其逆向文件频率就是 log(10,000,000 / 1,000)=4。最后的TF-IDF的分数为0.03 * 4=0.12。

考虑词长公式及注解：

文本表示+向量空间模型

词频为频率[0,1]，频数为次数，大于等于0.

地址