【发布时间】:2020-09-13 10:13:18
【问题描述】:
我是 R 和 Rvest 网络抓取主题的新手。使用 rvest,您可以抓取静态 HTML,但我发现 rvest 正在努力从基于 JS 的繁重站点中抓取数据。
我发现了一些文章或博客文章,但它们似乎被贬低了 https://awesomeopensource.com/project/yusuzech/r-web-scraping-cheat-sheet
在我的情况下,我想从体育博彩网站上获取赔率,但由于 JS,我认为使用 rvest 和 SelectorGadget 是不可能的。
2018 年有一篇关于从 PaddyPower(https://www.r-bloggers.com/how-to-scrape-data-from-a-javascript-website-with-r/) 中抓取 Odds 的文章,但这也已经过时了,因为 PhantomJS 不再可用。 RSelenium 似乎是一种选择,但 repo 有很多问题https://github.com/ropensci/RSelenium。
那么是否可以在当前状态下使用 RSelenium,或者我有什么选择来代替 RSelenium?
亲切的问候
【问题讨论】:
-
Docker 安装 RSelenium 为我工作了这篇文章:towardsdatascience.com/…。请注意,在某些网站上,您可能会遇到 anti-bot Captcha
-
将尝试。希望它不要复杂...
-
您好,教皇。请注意不要通过抓取数据来违反体育博彩网站的条款和条件。我认为大多数此类网站都会在其条款和条件中明确禁止这样做
标签: r web-scraping rvest httr rselenium