【问题标题】:HTML scraping with R and selectorgadget使用 R 和 selectorgadget 进行 HTML 抓取
【发布时间】:2020-01-04 18:16:29
【问题描述】:

我在下面有一个脚本,可用于简单的 html 抓取。此特定站点的下方没有返回任何内容。将 html 与 R 和 selectorgadget 一起使用是新手,但我还有其他可用的网站。我想知道为什么这个看不到元素。下面的图片在突出显示的红色框中有路径,我很好奇它是否是因为在花哨的框之前的 # 使它隐藏了。任何提示和语言纠正都会有所帮助,因为我仍在学习如何抓取 html。

library(rvest)
library(dplyr)
library(tm)
library(stringi)
library(readr)

url <- read_html('https://www.draftkings.com/draft/contest/84207356')

rot <- url %>%
  html_nodes('..prize-payouts td+ td') %>%
  html_text()

roster <- data.frame(ROT = rot)

【问题讨论】:

    标签: r


    【解决方案1】:

    该网站正在使用 javascript 来呈现页面。一种解决方案是将数据下载为 JSON。如果您在 Web 浏览器上的开发人员工具下检查来自网络的文件。

    此文件应提供您正在寻找的信息:

    library(jsonlite)
    fromJSON("https://api.draftkings.com/contests/v1/contests/84207356?format=json")
    

    请务必遵守本网站的服务条款。

    【讨论】:

    • 你在哪里找到的?
    • 我找到了。伙计,我已经查看了他们拥有的所有 api,但不知何故忽略了那个。我会用那个。谢谢!
    • 将 Json 导入数据框的最佳库是什么?我一直在尝试很多不同的事情,但没有结果。我在 python 中使用请求
    • @Mike.J,我发现使用 jsonlite 包很容易使用,它可以满足我的要求,不需要额外的依赖。还有一些其他的软件包。如果您遇到问题,请使用相关 JSON 文件发布一个新问题,有人会提供帮助。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2020-04-19
    • 2020-10-19
    • 1970-01-01
    • 2015-09-06
    • 1970-01-01
    相关资源
    最近更新 更多