【发布时间】:2016-07-23 02:09:56
【问题描述】:
我有兴趣使用 R 和 rvest 从 Web of Knowledge 中抓取期刊标题。但是,我在提交正确的表单时遇到问题。我对 1960-1970 年间所有 Econometrica 文章的列表感兴趣。我使用本地大学图书馆的访问权限自动登录。
当我跑步时
library("rvest")
library("httr")
link = "http://isiknowledge.com/wos"
form = html_session(link) %>% html_form() # returns list of 6 forms
form[[4]] = set_values(form[[4]], # set values in form number 4
product = "WOS",
range = "ALL",
action = "search",
period = "Range Selection",
startYear = "1960",
endYear = "1970",
range = "ALL",
'value(select1)' = "SO",
'value(input1)' = "econometrica",
formUpdated = "TRUE")
submit_form(html_session(link), form = form)
我有两个问题:首先,它使用 '' 而不是“Econometrica”提交,其次,我收到以下错误消息:Error in if (!(submit %in% names(submits))) { : argument is of length zero。
有一个 Python 替代品here,但代码必须在 R 中。任何有关如何取得进展的帮助将不胜感激。
【问题讨论】:
标签: r web-scraping rvest