【问题标题】:Scraping Google News with Rvest for Keywords使用 Rvest 搜索 Google 新闻获取关键字
【发布时间】:2020-12-31 11:34:41
【问题描述】:

我想比较不同国家的新闻文章对特定关键字的使用情况。

我的想法是使用 RCrawler 抓取 Google 新闻:

RCrawler(website = “https://news.google.com/topics/CAAqIggKIhxDQkFTRHdvSkwyMHZNREZqY0hsNUVnSmtaU2dBUAE?hl=de&gl=DE&ceid=DE%3Ade”, MaxDepth = 5, Keywordfilter = c(“Keyword”), KeywordAccuracy = 99)

然后只计算我得到的结果。 我不确定这是否是最好的方法,或者它是否正确,但我是 R 的新手,它是我目前能想到的最好的方法。

【问题讨论】:

  • 欢迎来到 Stackoverflow!我在下面分享了您的查询的答案。请注意,这些 Q/A 作为您以外的其他用户的未来参考,因此您的标题和帖子详细信息应反映这种责任。我建议将您的标题更改为“使用 Rvest 抓取 Google 新闻”之类的东西,因为当前的标题没有描述问题。

标签: r rvest rcrawler


【解决方案1】:

由于您使用的是 Google 新闻,而不是以这种方式抓取,更简单的方法是访问该特定关键字的 RSS 提要并将其拉入数据框。幸运的是,您可以使用 {tidyRSS} 包来执行此操作。

此 URL 的 Feed 外观示例:

https://news.google.com/rss/search?q=apple&hl=en-IN&gl=IN&ceid=IN:en

了解如何自定义此 URL here。如果您愿意,可以按地理位置进行搜索。

安装tidyRSS后,可以这样实现:

library(tidyRSS)

# I will search for the keyword Apple

keyword <- "https://news.google.com/rss/search?q=apple&hl=en-IN&gl=IN&ceid=IN:en"
# From the package vignette

google_news <- tidyfeed(
  keyword,
  clean_tags = TRUE,
  parse_dates = TRUE
)

这为您提供了一个数据框,其中包含许多描述每篇文章的变量。您可以选择保留哪些。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2012-09-30
    • 2022-01-19
    • 2019-09-20
    • 1970-01-01
    相关资源
    最近更新 更多