【问题标题】:removing tweets containing hyperlinks using twitteR使用 twitteR 删除包含超链接的推文
【发布时间】:2016-02-24 06:28:16
【问题描述】:

在使用 twitteR 软件包对电子商务网站进行情绪分析时,我注意到我收到的大多数推文都是关于优惠和销售的。他们总是有一个超链接,如果我可以在我的输入提要中忽略这些推文,我可以从我想要评估其情绪的消费者那里获得更多推文。虽然我可以在优化数据时忽略这些推文,但它会产生一个非常小的数据集。在搜索过程中我有什么办法可以做到这一点?我的目标是获得一个包含客户推文的足够大的数据集。

【问题讨论】:

    标签: r twitter sentiment-analysis


    【解决方案1】:

    虽然我没有清楚地理解你的问题,但如果你只是想使用 twitteR 包从数据中删除 URL,这可能会有所帮助

    removeURL <- function (x) gsub("http[[:alnum:]]*", "", x)
    myCorpus  <- tm_map(myCorpus, removeURL)
    

    【讨论】:

    • 我想过滤输入推文,以便排除包含 URL 的推文。即,如果我查询 1000 条推文,我想从 twitter api 中返回 1000 条不包含任何 URL 的推文。
    • 根据我在 Twitter REST API 文档和 twitteR 之类的软件包手册中阅读的内容,没有办法做到这一点。您只能在请求后过滤无 URL 的推文。
    • 对不起@srikterdon 回复晚了,你可能已经得到答案了。我发现你想做的事情不可能。为什么不从您的数据集中做另一件事,如果单词包含 www 或 https:// ,删除整行。听起来怎么样
    • @Noah ,您的建议可能是过滤数据集的唯一可行方法,但它会导致大约 85-90% 的数据被过滤。结果数据集太小而没有意义。重复搜索无济于事,因为我们最终会得到或多或少相同的数据集。
    • @Srikterdon,技术依旧无能为力;祝你的项目好运
    【解决方案2】:

    不,您不能正确地向 API 询问“不包含链接的推文”。找出这些推文的共同点,比如“Etrans:我刚买了 X http://...”,然后在您以后的查询中通过“querysubject -Etrans”过滤掉它们。

    【讨论】:

    • 已经过滤了至少 10 个这样的查询对象,但它并没有改进提要。我已经设法在 1000 条推文中只获得了大约 75 条消费者推文,因此需要在 API 本身进行过滤。
    猜你喜欢
    • 1970-01-01
    • 2014-08-15
    • 1970-01-01
    • 2016-06-24
    • 1970-01-01
    • 2011-02-02
    • 2011-02-27
    • 2012-05-03
    • 1970-01-01
    相关资源
    最近更新 更多