【发布时间】:2019-01-06 00:28:10
【问题描述】:
我想从 data.frame 文件中删除文本中的标点符号、数字和 http 链接。我尝试了 tm、stringr、quanteda、tidytext 包,但它们都不起作用。我正在为干净的 data.frame 文件寻找有用的基本包或函数,而无需将其转换为语料库或类似的东西。
我该怎么做?
mycorpus
mycorpus
而且,当我尝试查看一些包含任何符号的推文时: nchar(输出)中的错误:无效的多字节字符串,元素 1
mycorpus
【问题讨论】:
-
您究竟尝试了什么?请see here 发表我们可以帮助的 R 帖子。这包括有代表性的数据样本、无效的代码和预期的输出。
-
欢迎来到 SO。始终建议在您的帖子中使用代码标签发布输入和预期输出示例。
-
> mycorpus mycorpus mycorpus
-
请提供我们可以使用的数据的简短示例。否则我们必须继续猜测。
-
你可以再看看 tidytext 中的 unnest_tokens,它现在有一个 token = "tweets" 选项,可能很适合你。它的选项包括 strip_punct = TRUE 和 strip_url = TRUE。