【发布时间】:2018-10-17 13:23:20
【问题描述】:
有人可以帮助我或给我一些建议如何从这个网址刮桌子:https://www.promet.si/portal/sl/stevci-prometa.aspx。
我尝试使用说明和软件包rvest、httr and html,但对于这个特定站点没有任何成功。谢谢你。
【问题讨论】:
-
您确定可以抓取该页面吗?你能发布你的尝试吗?
-
那么,问题出在哪里?你的代码和错误是什么?
-
@s_t
robots.txt似乎确实如此,但我无法确定任何服务条款。该站点使用相对最新的共享点后端,它严重混淆了动态页面资源的加载和显示。您可能需要使用 splashr 或 RSelenium&friends 来获取内容 -
哇。那个网站真的很邪恶。 XHR
POST从计算的共享点视图状态发布一个 base64 编码值,响应是自定义 javascript 解码的二进制内容。您肯定会想要使用 splashr 或 RSelenium 并确保在页面上稍等片刻,并且可能会虚拟移动鼠标,因为我相信有一些 javascript 可以检查人类。 -
另外,不要将该站点留在浏览器中。它有一些窃听脚本,它尝试每分钟左右刷新一次该表,每次拉入超过 1 MB。但是,promet.si/portal/sl/etd.aspx 表示他们有您可能还想调查的 API。
标签: r web-scraping rvest httr