【问题标题】:HTML scraping using YQL使用 YQL 抓取 HTML
【发布时间】:2011-06-28 21:07:16
【问题描述】:

我正在尝试使用 YQL 来抓取一些网站。当我在 YQL 控制台中测试各种查询时,我得到一个结果节点。例如,当我运行时:

select * from html where url="http://www.reverbnation.com/" and xpath='/html/body'

我得到一个空的 <results /> 节点 (permalink)。 提前致谢!

【问题讨论】:

    标签: web-scraping yql


    【解决方案1】:

    http://www.reverbnation.com 可能会阻止来自 Yahoo! 的请求基于某些标准,如标题。我查看了 reverbnation 的 robots.txt,他们并没有阻止 Yahoo!基于“Yahoo Pipes 2.0”用户代理,所以它一定是别的东西。

    要重新创建问题,请对您自己的网站进行 YQL 查询,然后查看完整访问日志以查看来自 Yahoo! 的完整请求和所有标头然后使用cURL 之类的工具发出类似的请求。

    您也可以尝试在端口上运行 netcat 并使用 http://yoursite.com:PORT 查询以查看完整请求。

    相关问题discussed here

    【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2010-12-28
    • 1970-01-01
    • 2021-12-24
    • 2018-02-22
    • 2015-01-12
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多