【发布时间】:2019-07-24 00:59:44
【问题描述】:
我正在尝试在此交互式网页上抓取表格 https://games.crossfit.com/leaderboard/open/2019?country_champions=0&division=1&citizenship=US&citizenship_display=United+States&sort=0&scaled=0&page=1
以下是我的原始代码:
url='https://games.crossfit.com/leaderboard/open/2019?country_champions=0&division=1&citizenship=US&citizenship_display=United+States&sort=0&scaled=0&page=1'
US_male=read_html(url)%>%
html_nodes('#leaderboard')%>%
html_nodes('div.lb-main.container')%>%
html_nodes('div table')
执行此操作后,它返回 {xml_nodeset (0)},但如果我将其缩短为
US_male=read_html(url)%>%
html_nodes('#leaderboard')%>%
html_nodes('div.lb-main.container')
返回
{xml_nodeset (1)}
[1] <div class="lb-main container"></div>
如果您检查网页,在<table class="desktop athletes"> 下有table body<tbody> 的标签。我不明白为什么表格的内容没有显示出来,我应该如何正确地抓取表格?
无论你使用 R 还是 python,我都可以学习。我会很感激的!
【问题讨论】:
标签: python r web web-scraping rvest