【问题标题】:Is there a way to get the entire source of a page with yql?有没有办法用 yql 获取页面的整个源代码?
【发布时间】:2010-11-13 02:49:47
【问题描述】:

我正在尝试将任何页面的源代码加载到仅用于客户端的 html 编辑器的文本框中。我需要能够获取网页的整个来源,而不仅仅是正文。这个 yql 查询只返回正文:

http://query.yahooapis.com/v1/public/yql?format=xml&callback=editor.handleLoad&q=select+*+from+html+where+url%3D%22example.com%22

有没有办法获取完整的源码,或者有其他免费的json-p-x webservices可以吗?

【问题讨论】:

    标签: javascript html web-services proxy yql


    【解决方案1】:

    我没有看到使用 YQL 的明显方法,但这里有一个似乎可以工作的 Yahoo Pipe。它拒绝获取他们的 robots.txt 不允许的网站,但它正在获取其他网站的全部源代码:

    http://pipes.yahoo.com/pipes/pipe.info?_id=dCsGDO123hG6BNv70EypaA

    默认设置为 www.example.com,由于该页面上的 robots.txt 而被拒绝。但是,它接受 URL 作为参数。以下是此管道的示例用法链接,该示例获取管道的来源并返回以 JSON 格式包装的结果:

    http://pipes.yahoo.com/pipes/pipe.run?_id=dCsGDO123hG6BNv70EypaA&_render=json&url=http%3A%2F%2Fpipes.yahoo.com%2F

    这有帮助吗?

    【讨论】:

    • 这样更近了。管道似乎过滤掉了所有元和脚本标签。是否有任何代理/网络服务会返回整个页面?
    猜你喜欢
    • 1970-01-01
    • 2021-02-22
    • 1970-01-01
    • 2021-10-22
    • 1970-01-01
    • 1970-01-01
    • 2012-07-22
    • 2012-11-20
    • 1970-01-01
    相关资源
    最近更新 更多