修改 R 的 TM 包中的停用词 [关闭]答案

【问题标题】：modifying stopwords in R's TM package [closed]修改 R 的 TM 包中的停用词 [关闭]
【发布时间】：2014-07-22 18:38:40
【问题描述】：

我在修改 R 的 TM 包中的 english.dat 停用词文件时遇到问题。我添加的任何内容都无法识别。我尝试在文件的开头、中间、结尾添加，仍然没有任何效果。仅识别文件的原始文本。我尝试将文件另存为 ASCI、UTF、UTF-8，但无济于事。

有什么想法吗？

谢谢

【问题讨论】：

与adding stopword in mn package相同的问题
正如我在另一个回复中提到的，如果您要添加大量停用词文件，这是不切实际的
请解释这是不切实际的。附加词的格式是什么？ c 适用于许多向量，因此如果您使用它并且您的其他单词在向量中，它就可以完成工作，这是一个重复的问题。
@animalcroc 正如 Rinker 所说，您可以将停用词加载到向量中，就像这样 => 将停用词加载到 mystopwords 变量然后 myCorpus <- tm_map(myCorpus, removeWords, c(stopwords("english"),mystopwords))
我有一个文本文件中可能包含 3000 个单词的列表...我在这里面临的问题一定是 R 中的一个错误。很奇怪 TM 包无法读取我输入的文本在。

【解决方案1】：

尝试以这种方式将它们添加到“英语”列表中：

myStopwords <- c(stopwords('english'), "available", "via") to add words
myCorpus <- tm_map(myCorpus, removeWords, myStopwords)

【讨论】：