【发布时间】:2019-06-24 15:21:52
【问题描述】:
我以this guide 为例来获取帖子发布到 Reddit 的时间。
它说使用 SelectorGadget 工具来绕过学习其他语言,所以这就是我所做的。
虽然 old.reddit.com 上的页面显示了 100 个帖子(因此应该记录 100 个不同的时间),但实际上从我的代码中只提取了 25 个不同的时间值。这是我的代码的样子:
library(rvest)
url <- 'https://old.reddit.com/'
rawdata <- read_html(url)
rawtime <- html_nodes(rawdata, '.live-timestamp')
#".live-timestamp" was obtained using the Chrome extension "SelectorGadget"
finalresult <- bind_rows(lapply(xml_attrs(rawtime), function(x) data.frame(as.list(x), stringsAsFactors=FALSE)))
【问题讨论】:
-
当我打开你的 old.reddit 链接时,我看到了 25 个帖子,所以我认为当从 R 打开链接时会发生同样的事情。你应该看看多页抓取stackoverflow.com/a/36683564/7118188