基础知识
1. 文本向量的表示
-
one-hot编码表示(向量长度=词典大小)
Boolean Representation:未出现记为0,出现记为1.
Count-based Representation:未出现记为0,出现记出现的次数.
举例:
-
TF-IDF表示
2. 词向量的表示
一段话会具有许多分词,故词向量使用one-hot编码会出现每行只有一位为1,其余均为0的现象,这是向量表示中的稀疏性问题。
目前大部分使用分布式表示(distributed representation),用于表示单词,也叫词向量(word vectors).若用词向量表示分词,可将其转换至二位坐标中,肉眼查看分词的效果,是否意义接近的分词会被分到一起.