【发布时间】:2016-10-09 17:13:20
【问题描述】:
我正在抓取一个特定网站的某个部分,它看起来像一张桌子,但不是(不幸的是)。
我用这个代码...
htmldoc <- read_html("http://www.wettportal.com/quotenvergleich/valuebets/")
data <- htmldoc %>%
html_node(xpath='//*[(@id = "datagrid_content")]') %>%
html_text()
# alternative css selector: "#datagrid_content"
.. 并获得这种输出:
Fussball | Schweden | Cup\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n08.06.2016\r\nTipp\r\nVQ\r\nBuchmacher\r\n100%\r\nProfit\r\n\r\n\r\n\r\n\r\n19:00\r\nHuddinge IF - Enskede IK\r\n1 (DNB)\r\n1.73\r\nCoral\r\n1.50\r\n45.17%\r\n\r\n\r\n19:00\r\nHuddinge IF - Enskede IK\r\n1\r\n2.25\r\nCoral\r\n1.93\r\n35.00%\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n
如你所见,它真的很乱,到目前为止我还不能将它整齐地放入 data.frame 中。
有人知道怎么做
- 选择不同的对象以便从一开始就获得claner输出? (首选)
- 以某种方式清理数据,使其适合具有如下列的 data.frame: 运动 |国家 |比赛 |日期 |时间 |团队1 | Team2 ... ?
谢谢。
【问题讨论】:
标签: r web-scraping rvest