【发布时间】:2017-07-03 20:19:07
【问题描述】:
我正在使用 tm 包来清理 Twitter 语料库。但是,该包无法清理表情符号。
这是一个复制的代码:
July4th_clean <- tm_map(July4th_clean, content_transformer(tolower))
Error in FUN(content(x), ...) : invalid input 'RT ElleJohnson Love of country is encircling the globes ������������������ july4thweekend July4th FourthOfJuly IndependenceDay NotAvailableOnIn' in 'utf8towcs'
有人可以指出我使用 tm 包删除表情符号的正确方向吗?
谢谢,
路易斯
【问题讨论】:
-
从您的示例中不清楚您希望消除什么。您是要消除包含多个连续标点符号(例如 :-) 和 (-_-) 的子字符串,还是要消除像 ☺ 和 ❀ 这样的奇数 Unicode 字符?
-
你是对的。我还以为是???或类似的东西。
-
我是 R 新手。你知道我怎么能检查那个特定的推文吗?我想你使用 [] 但不确定是函数还是代码的任何其他部分。
-
嗨,G5W,表情符号是桃子和美国国旗。 ??????
-
我正在尝试消除奇怪的 Unicode 字符。
标签: r sentiment-analysis tm emoticons