wangrn

需要做的工作:

1. 构建停用词词表并进行过滤

2. 构建词袋模型(建倒排表)

(1) 建立后需要保存到硬盘,使用时再从硬盘载入.原因:词袋模型的建立需要占用大量的内存,运行时间也较长,不适合多次运行.

建立倒排表 --> 将倒排表写入倒排索引文件 --> 从倒排索引文件加载倒排表

(2) 需要制订合适的保存结构,一种比较好的方式为:词i的text,词i的TF,(文档j的编号,词i在文档j中的DF)

3. 建立VSM(向量空间模型)

(1) maxTF, DF;

(2) 归一化

分类:

技术点:

相关文章:

  • 2021-12-04
  • 2021-06-22
  • 2021-12-03
  • 2022-12-23
  • 2022-12-23
  • 2021-12-04
  • 2021-12-04
猜你喜欢
  • 2021-12-04
  • 2021-12-04
  • 2021-12-04
  • 2021-12-04
  • 2021-09-07
  • 2021-12-02
相关资源
相似解决方案