【问题标题】:modifying stopwords in R's TM package [closed]修改 R 的 TM 包中的停用词 [关闭]
【发布时间】:2014-07-22 18:38:40
【问题描述】:

我在修改 R 的 TM 包中的 english.dat 停用词文件时遇到问题。 我添加的任何内容都无法识别。我尝试在文件的开头、中间、结尾添加,仍然没有任何效果。仅识别文件的原始文本。 我尝试将文件另存为 ASCI、UTF、UTF-8,但无济于事。

有什么想法吗?

谢谢

【问题讨论】:

  • adding stopword in mn package相同的问题
  • 正如我在另一个回复中提到的,如果您要添加大量停用词文件,这是不切实际的
  • 请解释这是不切实际的。附加词的格式是什么? c 适用于许多向量,因此如果您使用它并且您的其他单词在向量中,它就可以完成工作,这是一个重复的问题。
  • @animalcroc 正如 Rinker 所说,您可以将停用词加载到向量中,就像这样 => 将停用词加载到 mystopwords 变量然后 myCorpus <- tm_map(myCorpus, removeWords, c(stopwords("english"),mystopwords))
  • 我有一个文本文件中可能包含 3000 个单词的列表...我在这里面临的问题一定是 R 中的一个错误。很奇怪 TM 包无法读取我输入的文本在。

标签: r text-mining stop-words tm


【解决方案1】:

尝试以这种方式将它们添加到“英语”列表中:

myStopwords <- c(stopwords('english'), "available", "via") to add words
myCorpus <- tm_map(myCorpus, removeWords, myStopwords)

【讨论】:

  • 谢谢,但我有一大堆单词要添加,这不切实际
  • 这比我想象的要容易。我只是使用 R 的 scan() 函数将我的停用词文件读入一个向量,然后将其连接起来
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 2013-08-29
  • 2015-01-10
  • 2021-09-27
  • 1970-01-01
  • 2013-07-07
  • 2018-06-11
  • 2018-08-22
相关资源
最近更新 更多