【问题标题】:Soccer Stats Python Scraper足球统计 Python Scraper
【发布时间】:2012-12-05 22:02:43
【问题描述】:

我希望将一些 Houston Dynamo stats from this season 抓取到 CSV 中,然后使用 R 可视化该数据。

如何使用 lxml 抓取 tr 和 td 元素?我应该看一下更简单的选择器吗?

【问题讨论】:

    标签: python r web-scraping lxml


    【解决方案1】:

    对于(合理地)格式良好的 HTML 表格,R 中的 XML 包让这种事情变得非常简单:

    library(XML)
    > url <- "http://www.houstondynamo.com/stats/season?page=0"
    > tbl <- readHTMLTable(url)
    > head(tbl[[1]])
               Player POS GP GS MINS  G  A SHTS SOG GWG PKG/A HmG RdG G/90min  SC%
    1      Will Bruin   F 32 31 2510 12  4   78  35   0   0/0   6   6    0.43 15.4
    2      Brad Davis   M 31 28 2523  8 12   53  22   3   3/4   5   3    0.29 15.1
    3     Brian Ching   F 30 13 1385  5  5   35  15   1   2/2   2   3    0.32 14.3
    4   Boniek Garcia   M 17 17 1530  4  6   30  12   1   0/0   3   1    0.24 13.3
    5      Calen Carr   M 26 17 1512  4  2   29  11   2   0/0   3   1    0.24 13.8
    6 Macoumba Kandji   F 29 21 1630  4  2   34  16   1   0/0   3   1    0.22 11.8
    

    【讨论】:

    • 哇,这太棒了。过去,我使用其他工具将 HTML 转换为 CSV。这种简单性给我留下了深刻的印象。做得很好。
    • 同意@Lenwood。非常感谢。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2015-10-12
    • 2020-02-27
    • 1970-01-01
    • 1970-01-01
    • 2021-11-07
    相关资源
    最近更新 更多