【发布时间】:2021-06-16 07:38:29
【问题描述】:
我正在尝试使用 rvest 包抓取在议会举行的部分演讲。
使用 css 选择器或 chrome 的检查器工具为我提供了一个选择器,但是我无法检索预期的(任何)数据。 AFAIK,该站点也不是基于 java 等的,即不需要 RSelenium 等。
这里是link:
library(tidyverse)
library(rvest)
library(xml2)
session_1 <- "https://www.parlament.gv.at/PAKT/VHG/XXVII/NRSITZ/NRSITZ_00001/fnameorig_796482.html"
x <- session_1 %>%
rvest::read_html() %>%
rvest::html_element("wordsection14") %>%
rvest::html_text()
最终,我希望能够使用类 'wordsection*' 获取所有元素中包含的文本。
非常感谢任何提示。非常感谢。
【问题讨论】:
-
由于您正在寻找 class=Wordsection14 而不是 html 标签,因此您需要使用“。”在类名之前,但这仍然无法解决。
-
我不明白这个页面发生了什么。
page %>% html_elements("div")应该返回一个完整的节点列表(所有的 WordSection),但在这种情况下它只返回前 5 个。
标签: r web-scraping css-selectors rvest