【发布时间】:2018-07-09 10:56:39
【问题描述】:
我正在尝试抓取和抓取网站的表格。我有一个网站帐户,我发现 Rcrawl 可以帮助我根据特定关键字等获取表格的部分内容。问题是在 GitHub 页面上没有提及如何使用帐户抓取网站/密码保护。
登录示例如下:
login <- list(username="username", password="password",)
你知道 Rcrawler 是否有这个功能吗?例如:
Rcrawler(Website = "http://www.glofile.com" +
list (username = "username", password = "password" + no_cores = 4, no_conn = 4, ExtractCSSPat = c(".entry-title",".entry-content"), PatternsNames = c("Title","Content"))
我确信我上面的代码是错误的,但我希望它能让您了解我想要做什么。
【问题讨论】:
标签: r web-scraping web-crawler web-mining rcrawler