【发布时间】:2017-03-27 04:43:15
【问题描述】:
我正在使用 RVest 抓取博客文本,并且正在努力寻找一种简单的方法来排除特定节点。以下拉取文字:
AllandSundry_test <- read_html
("http://www.sundrymourning.com/2017/03/03/lets-go-back-to-commenting-on-the-weather/")
testpost <- AllandSundry_test %>%
html_node("#contentmiddle") %>%
html_text() %>%
as.character()
我想排除 ID 为“contenttitle”和“commentblock”的两个节点。下面,我尝试使用标签“commentblock”排除 cmets。
testpost <- AllandSundry_test %>%
html_node("#contentmiddle") %>%
html_node(":not(#commentblock)")
html_text() %>%
as.character()
当我运行它时,结果只是日期——所有其余的文本都消失了。有什么建议吗?
我花了很多时间寻找答案,但我是 R(和 html)的新手,所以如果这是显而易见的事情,我感谢你的耐心。
【问题讨论】:
-
您能否提供您要从中抓取的网址?我只是无法理解你的问题的要点。
-
感谢您的回复。我用我正在使用的确切示例编辑了这个问题。感谢您的帮助。
标签: r web-scraping rvest