【发布时间】:2012-03-27 02:15:26
【问题描述】:
我正在尝试使用 R 中的 tm 包来执行一些文本分析。我绑定了以下内容:
require(tm)
dataSet <- Corpus(DirSource('tmp/'))
dataSet <- tm_map(dataSet, tolower)
Error in FUN(X[[6L]], ...) : invalid input 'RT @noXforU Erneut riesiger (Alt-)�lteppich im Golf von Mexiko (#pics vom Freitag) http://bit.ly/bw1hvU http://bit.ly/9R7JCf #oilspill #bp' in 'utf8towcs'
问题是某些字符无效。我想在 R 中或在导入文件进行处理之前从分析中排除无效字符。
我尝试使用 iconv 将所有文件转换为 utf-8 并排除任何无法转换为的文件,如下所示:
find . -type f -exec iconv -t utf-8 "{}" -c -o tmpConverted/"{}" \;
正如这里指出的Batch convert latin-1 files to utf-8 using iconv
但我仍然遇到同样的错误。
我将不胜感激。
【问题讨论】:
标签: r utf-8 iconv text-mining