【发布时间】:2014-07-22 18:38:40
【问题描述】:
我在修改 R 的 TM 包中的 english.dat 停用词文件时遇到问题。 我添加的任何内容都无法识别。我尝试在文件的开头、中间、结尾添加,仍然没有任何效果。仅识别文件的原始文本。 我尝试将文件另存为 ASCI、UTF、UTF-8,但无济于事。
有什么想法吗?
谢谢
【问题讨论】:
-
正如我在另一个回复中提到的,如果您要添加大量停用词文件,这是不切实际的
-
请解释这是不切实际的。附加词的格式是什么?
c适用于许多向量,因此如果您使用它并且您的其他单词在向量中,它就可以完成工作,这是一个重复的问题。 -
@animalcroc 正如 Rinker 所说,您可以将停用词加载到向量中,就像这样 => 将停用词加载到
mystopwords变量然后myCorpus <- tm_map(myCorpus, removeWords, c(stopwords("english"),mystopwords)) -
我有一个文本文件中可能包含 3000 个单词的列表...我在这里面临的问题一定是 R 中的一个错误。很奇怪 TM 包无法读取我输入的文本在。
标签: r text-mining stop-words tm