使用 twitteR 删除包含超链接的推文答案

【问题标题】：removing tweets containing hyperlinks using twitteR使用 twitteR 删除包含超链接的推文
【发布时间】：2016-02-24 06:28:16
【问题描述】：

在使用 twitteR 软件包对电子商务网站进行情绪分析时，我注意到我收到的大多数推文都是关于优惠和销售的。他们总是有一个超链接，如果我可以在我的输入提要中忽略这些推文，我可以从我想要评估其情绪的消费者那里获得更多推文。虽然我可以在优化数据时忽略这些推文，但它会产生一个非常小的数据集。在搜索过程中我有什么办法可以做到这一点？我的目标是获得一个包含客户推文的足够大的数据集。

【问题讨论】：

标签： r twitter sentiment-analysis

【解决方案1】：

虽然我没有清楚地理解你的问题，但如果你只是想使用 twitteR 包从数据中删除 URL，这可能会有所帮助

removeURL <- function (x) gsub("http[[:alnum:]]*", "", x)
myCorpus  <- tm_map(myCorpus, removeURL)

【讨论】：

我想过滤输入推文，以便排除包含 URL 的推文。即，如果我查询 1000 条推文，我想从 twitter api 中返回 1000 条不包含任何 URL 的推文。
根据我在 Twitter REST API 文档和 twitteR 之类的软件包手册中阅读的内容，没有办法做到这一点。您只能在请求后过滤无 URL 的推文。
对不起@srikterdon 回复晚了，你可能已经得到答案了。我发现你想做的事情不可能。为什么不从您的数据集中做另一件事，如果单词包含 www 或 https:// ，删除整行。听起来怎么样
@Noah ，您的建议可能是过滤数据集的唯一可行方法，但它会导致大约 85-90% 的数据被过滤。结果数据集太小而没有意义。重复搜索无济于事，因为我们最终会得到或多或少相同的数据集。
@Srikterdon，技术依旧无能为力；祝你的项目好运

【解决方案2】：

不，您不能正确地向 API 询问“不包含链接的推文”。找出这些推文的共同点，比如“Etrans：我刚买了 X http://...”，然后在您以后的查询中通过“querysubject -Etrans”过滤掉它们。

【讨论】：

已经过滤了至少 10 个这样的查询对象，但它并没有改进提要。我已经设法在 1000 条推文中只获得了大约 75 条消费者推文，因此需要在 API 本身进行过滤。