【发布时间】:2021-04-08 01:09:34
【问题描述】:
我正在尝试从以下页面 (https://www.coya.com/bike/fahrrad-index-2019) 抓取表格,即 50 个德国城市的自行车指数值(如果您单击“Alle Ergebnisse +”,您将看到所有 50 个城市。
我特别需要一些专栏(“Bewertung spezielle Radwege & Qualität der Radwege”、“Investitionen & QUAlität der Infrastruktur”、“Bewertung der Infrastruktur”、“Fahrradsharing-Score”、“Autofreier Tag”、“Critical-Mass-Fahrrad -aktionen,“事件分数)。
这是我尝试过的:
library(rvest)
num_link="https://www.coya.com/bike/fahrrad-index-2019"
num_page= read_html(num_link)
xyc= num_page %>% html_nodes("._1200:nth-child(2)") %>% html_text()
我尝试了 Selectorgadget,不幸的是,我在一个长字符串中获得了表的所有值(str_split 具有挑战性,因为数字中的逗号与数字之间的逗号混合在一起:
"[1] "Ergebnisse für DeutschlandKriminalitätInfrastrukturFahrrad-SharingEvents#StadtLandSizeTotal Score1OldenburgDeutschlandK57,90,4271,94588,3594,4684,5227,153,0590,3454,1836,4515,0525,75N31,5216,2669,122MünsterDeutschlandK58,740,3910,53445,5883,0488,4328,1551,2388,0453,0535,522630,76N23,8412,4265,933Freiburg i. Breisg.DeutschlandK59,350,"
如果可能的话,有人能帮我刮一下表格吗,尤其是特定列的一些值(见上文)?非常感谢任何帮助/提示。
提前谢谢你。 (我是新手,请温柔。)
【问题讨论】:
标签: r web-scraping rvest