【发布时间】:2016-01-08 10:18:09
【问题描述】:
我有大约 200MB 的文本文件 (rawtext.txt),并且在文本文件 (stopwords.txt) 中有一个停用词列表。
I
a
about
an
are
as
at
be
by
com
for
...
我想删除文本语料库中的停用词。但是怎么做?最快最简单的方法是什么?更喜欢像 sed 或 tr 这样的命令行。不想使用 python 或 NLTK。
有人可以帮忙吗?我使用的是 Mac OSX(不是 linux)
【问题讨论】: