【发布时间】:2020-06-18 06:38:08
【问题描述】:
通过其他 SO 问题,我找到了如何获得头条新闻,但我不知道 Google 代码将链接存储在哪里。
我想要一个包含标题及其相应链接的 2 列 data.frame。
library(rvest)
library(tidyverse)
dat <- read_html("https://news.google.com/search?q=coronavirus&hl=en-US&gl=US&ceid=US%3Aen") %>%
html_nodes('.DY5T1d') %>% #
html_text()
dat
【问题讨论】:
-
Google 有点难抓取。 :) 所有链接都应保存在“href”中。如果你有一些困难,也许你应该使用 Rselenium。这样您就可以浏览网站了。
-
我在源代码中找到了描述参考,但仍然不知道链接存储在什么下
-
您是否尝试关注此stackoverflow.com/questions/35247033/… ?