【发布时间】:2020-07-02 15:07:32
【问题描述】:
我已经为网页中的网页抓取表格编写了代码。此代码从第一页(在 url /page=0 中)提取表格:
url <- "https://ss0.corp.com/auth/page=0"
login <- "john.johnson" (fake)
password <- "67HJL54GR" (fake)
res <- GET(url, authenticate(login, password))
content <- content(res, "text")
table <- fromJSON(content) %>%
as.data.farme()
我想编写一个代码来逐页从表中提取行,然后绑定它们。我这样做,因为表太大,我不能一次提取所有东西(它会破坏系统)。我不知道可以有多少页,它会发生变化,因此一旦收集到最后一页,它就必须停止。我怎么能这样做?
【问题讨论】:
-
您能否展示一下您为逐页提取并将数据放在一起所做的工作。
-
在 SO 上提出问题时,有助于将问题减少到最低限度。看起来您已经在此处(经过清理)完成了该操作,这很好,但它需要是真正有效的代码。这包括以下内容:(1)告诉我们您可能正在使用的任何/所有非基础包,可能是
dplyr和httr; (2) 您的代码中没有拼写错误,即as.data.farme,这可能会在您的过程中引起怀疑。不过,为此,您是否尝试过简单的for循环或lapply(seq_len(num_pages), function(pg) ...)?
标签: r function web web-scraping httr