如何使用 Google 电子表格抓取网站？

【问题标题】：How to Scrape a Website Using Google Spreadsheet?如何使用 Google 电子表格抓取网站？
【发布时间】：2014-04-21 17:23:02
【问题描述】：

我有这个网站https://gpfo.memberclicks.net//index.php?option=com_community&view=profile&userid=23705974，我正在尝试提取“完整资料”下“查看”后面的 href 链接。

我想知道如何抓取这个。我试过//dl[1]/dd[contains(a/text(),'View')]/@href，但它没有返回任何数据。

我还想就什么是最有效的网站抓取方式征求专家意见：直接从 Google Docs 运行 importXML 更好，还是有更好的方法来使用脚本？

【问题讨论】：

【解决方案1】：

您尝试查询<dd> 的@href 标记（不存在）。试试

//dd/a[. = 'View']/@href

相反。或者，更接近你原来的表达方式：

//dl[1]/dd/a[contains(text(),'View')]/@href

直接从 Google Docs 运行 importXML 更好，还是有更好的方法来使用脚本？

取决于事情的复杂程度。如果您只想阅读一些表格数据，最好使用普通的电子表格；如果编写自己的脚本更复杂，可能是合理的。

【讨论】：