【问题标题】:How to Scrape a Website Using Google Spreadsheet?如何使用 Google 电子表格抓取网站?
【发布时间】:2014-04-21 17:23:02
【问题描述】:

我有这个网站https://gpfo.memberclicks.net//index.php?option=com_community&view=profile&userid=23705974,我正在尝试提取“完整资料”下“查看”​​后面的 href 链接。

我想知道如何抓取这个。我试过//dl[1]/dd[contains(a/text(),'View')]/@href,但它没有返回任何数据。

我还想就什么是最有效的网站抓取方式征求专家意见:直接从 Google Docs 运行 importXML 更好,还是有更好的方法来使用脚本?

【问题讨论】:

    标签: xpath screen-scraping


    【解决方案1】:

    您尝试查询<dd>@href 标记(不存在)。试试

    //dd/a[. = 'View']/@href
    

    相反。或者,更接近你原来的表达方式:

    //dl[1]/dd/a[contains(text(),'View')]/@href
    

    直接从 Google Docs 运行 importXML 更好,还是有更好的方法来使用脚本?

    取决于事情的复杂程度。如果您只想阅读一些表格数据,最好使用普通的电子表格;如果编写自己的脚本更复杂,可能是合理的。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2014-01-28
      • 1970-01-01
      • 2023-01-15
      • 1970-01-01
      • 2019-06-21
      • 1970-01-01
      • 1970-01-01
      • 2023-01-02
      相关资源
      最近更新 更多