【发布时间】:2016-04-05 13:02:35
【问题描述】:
我想找到下面网页中使用的所有类。 rvest 是否可以做到这一点,还是我需要一些正则表达式/grepl? 一旦知道类的名称,我就可以抓取信息,但是对于具有动态构建的类名称的页面,对所使用的类进行概述会很方便。
library(rvest)
doc_url<-"http://curia.europa.eu/juris/document/document.jsf?text=&docid=160583&pageIndex=0&doclang=fr&mode=req&dir=&occ=first&part=1&cid=676771"
page<-read_html(doc_url)
language<- page%>%html_nodes(".C49FootnoteLangue")%>%html_text()
【问题讨论】:
-
您要查找所有类并将名称保存在某个数组中吗?或者只是将样式应用于所有找到的类?
-
我想找到所有使用的类并以结构化的方式(列表,df)保存它们,以供进一步处理
-
page %>% html_nodes("*") %>% html_attr("class") %>% unique()? -
完全符合我的要求。使用 css 选择器通配符的可能性让我无法理解。谢谢(回答和 rvest)。
标签: html r css-selectors wildcard rvest