使用 YQL 抓取 HTML

【问题标题】：HTML scraping using YQL使用 YQL 抓取 HTML
【发布时间】：2011-06-28 21:07:16
【问题描述】：

我正在尝试使用 YQL 来抓取一些网站。当我在 YQL 控制台中测试各种查询时，我得到一个结果节点。例如，当我运行时：

select * from html where url="http://www.reverbnation.com/" and xpath='/html/body'

我得到一个空的 <results /> 节点 (permalink)。提前致谢！

【问题讨论】：

【解决方案1】：

http://www.reverbnation.com 可能会阻止来自 Yahoo! 的请求基于某些标准，如标题。我查看了 reverbnation 的 robots.txt，他们并没有阻止 Yahoo！基于“Yahoo Pipes 2.0”用户代理，所以它一定是别的东西。

要重新创建问题，请对您自己的网站进行 YQL 查询，然后查看完整访问日志以查看来自 Yahoo! 的完整请求和所有标头然后使用cURL 之类的工具发出类似的请求。

您也可以尝试在端口上运行 netcat 并使用 http://yoursite.com:PORT 查询以查看完整请求。