【发布时间】:2017-05-08 02:54:32
【问题描述】:
我现在正在使用 Rstudio 作为网络爬虫。但我有一个问题。
page_html <- read_html("http://competitie.vttl.be/index.php?menu=6&sel=36665&result=1&category=1")
> page_html %>% html_nodes("td:nth-child(1) :nth-child(2) :nth-child(3).DBTable_first") %>% html_text()
[1] "A [+]"
> identical((page_html %>% html_nodes("td:nth-child(1) :nth-child(2) :nthchild(3) .DBTable_first") %>% html_text()),"A [+]")
[1] FALSE
> page_html %>% html_nodes("td:nth-child(1) :nth-child(2) :nth-child(4).DBTable_first") %>% html_text()
[1] "B0"
> identical((page_html %>% html_nodes("td:nth-child(1) :nth-child(2) :nthchild(4) .DBTable_first") %>% html_text()),"B0")
[1] TRUE
A [+] 总是返回 false,我不知道为什么。我将它与使用完全相同的方法返回 true 的其他人进行了比较。有谁知道如何解决这个问题?
【问题讨论】:
-
建议你发布一个完整的例子。
-
好吧,我猜这就是完整的例子。这是我用于此 URL 的代码:page_html competitie.vttl.be/…)。我之前发布的代码应该适用于测试。
-
运行代码的第一行会得到
Error in open.connection(x, "rb") : HTTP error 404.所以看起来页面不再存在? -
你是对的,复制那个链接出了点问题,它现在应该可以工作了!
-
这行得通,但是运行你的第二行会给我
character(0)
标签: r