【发布时间】:2021-10-11 16:11:03
【问题描述】:
我正在尝试在下面的链接中抓取表格:
https://www.pgatour.com/university/full-ranking.html
我希望输出看起来像:
Rank Player University
1 Pierceson Coody University of Texas
2 Sam Bennett Texas A&M
表中列的 td 类是“rank”、“player”、“name”,当我尝试将这些设置为我的选择器时,我在值部分得到了“character (empty)”的输出工作室。
pga_url <- 'https://www.pgatour.com/university/full-ranking.html'
pgaU <- read_html(pga_url)
select <- '.name'
p <- html_nodes(pgaU,select) %>%
html_text ()
如果我使用写入函数或选择器,数据位于 HTML 标记下。使用维基百科作为示例刮表的文章没有帮助。我以前没有在 Inspect 上使用过 copy element/xpath/selector 选项,但还没有弄清楚如何让它工作。
【问题讨论】:
-
数据从 API
https://statdata-api-prod.pgatour.com/api/clientfile/PGATourUniversityRankings?format=json&week=39动态拉取