【发布时间】:2015-10-13 10:38:29
【问题描述】:
我有一个 2GB 的文本文件。我正在尝试从此文件中删除频繁出现的英语停用词。
我有 stopwords.txt 包含这样的内容..
a
an
the
for
and
I
使用 tr、sed 或 awk 等 shell 命令执行此操作的快速方法是什么?
【问题讨论】:
-
您的意思是输入速度最快,还是执行速度最快?
-
是在大数据上执行?
-
这听起来是个坏主意——为什么你想要一个 2GB 的副本,其中包含不可读的文本?如果您打算进行信息检索,则无论如何都需要对文本进行预处理(标记化、词干提取)和索引,那么为什么不在稍后阶段跳过停用词呢?
-
他们在哪里说过信息检索?
-
@Dan 他们没有,我只是认为这是一个可能的情况。但我所说的也适用于我能想到的任何其他需要删除停用词的 NLP 任务。
标签: shell nlp text-processing