【问题标题】:How to create an API which crawls a specific webpage如何创建一个抓取特定网页的 API
【发布时间】:2013-03-11 20:24:47
【问题描述】:

我想设计/创建一个 API 来抓取网页上的数据(网页链接将作为输入提供)并以 JSON/xml 格式返回数据。

我正在寻求一些帮助,以便我可以开始寻找特定的方向。

【问题讨论】:

    标签: javascript web-crawler


    【解决方案1】:

    这个问题不是很清楚,但是如果你只是想解析输入的HTML页面并从中获取outlinks,你可以这样做

    1. 获取 HTML 页面作为输入流
    2. 使用 jtidy 或任何其他 HTML DOM 解析器创建一个 DOM。
    3. 拥有 DOM 后,获取所有内容
    4. 、href、元素,你将拥有所有的外链。

    一般来说,当您说抓取时,它应该涉及多个页面,在一个图表中,您可以使用这些链接从一个页面移动到另一个页面。所以抓取特定页面是不正确的。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2019-08-28
      • 2021-06-03
      • 1970-01-01
      • 2019-10-16
      • 2014-05-12
      • 1970-01-01
      • 2013-09-04
      相关资源
      最近更新 更多