文字挖掘的基本流程:

R 文字挖掘基本流程

需要的工具套件:

  1. 内容来源:guternbergr 古腾堡计划,提供很多书籍电子版资料,可以用guternbergr套件以编号直接下载书籍
  2. 自己爬取内容:现成的爬虫工具,自己写爬虫
  3. 基本文字处理:dplyr、tidytext 包
  4. 断词模组:
    1. 中文:jiebar包
    基本断词
    自定义使用者断词词典
    自定义停用词
    2. 英文:Stanford Cote NLP
  5. 词性标注模组:
    中文:Stanford Cote NLP
    英文:Stanford Cote NLP

欢迎关注【数据小盐罐儿】一个很“咸”的数据科学公众号,不定期分享有趣好玩的项目以及大量的学习资源。

相关文章:

  • 2022-12-23
  • 2021-09-21
  • 2022-12-23
  • 2022-12-23
  • 2022-12-23
  • 2021-04-28
猜你喜欢
  • 2021-12-13
  • 2021-09-03
  • 2022-02-07
  • 2021-05-14
  • 2022-12-23
  • 2021-12-04
相关资源
相似解决方案