文字挖掘的基本流程:
需要的工具套件:
- 内容来源:guternbergr 古腾堡计划,提供很多书籍电子版资料,可以用guternbergr套件以编号直接下载书籍
- 自己爬取内容:现成的爬虫工具,自己写爬虫
- 基本文字处理:dplyr、tidytext 包
- 断词模组:
1. 中文:jiebar包
基本断词
自定义使用者断词词典
自定义停用词
2. 英文:Stanford Cote NLP - 词性标注模组:
中文:Stanford Cote NLP
英文:Stanford Cote NLP
欢迎关注【数据小盐罐儿】一个很“咸”的数据科学公众号,不定期分享有趣好玩的项目以及大量的学习资源。