【问题标题】:Does nutch crawl over forms?nutch 会爬过表格吗?
【发布时间】:2012-05-10 15:07:03
【问题描述】:

我想知道 nutch 1.4 是否开箱即用。例如,如果有一个下拉列表,它是否会尝试从下拉列表中的项目中组合所有可能的页面??

谢谢

【问题讨论】:

    标签: solr lucene web-crawler nutch


    【解决方案1】:

    Nutch 通过 HTTP 请求获取所需页面的 html 源。现在页面的 html 源代码可以包含其中编码的下拉列表。如果使用复杂的脚本(如 dojo / ajax)对其进行编码,那么它将无法像浏览器那样解释它。如果在 html 源代码中立即看到下拉列表的外链接,则 nutch 将抓取这些页面。除了正常的文本内容,Nutch 还对 html 页面的 Java 脚本部分进行解析。

    现在为了验证这一点,在 bowser / wget 中打开页面。在记事本/vi 等文本编辑器中查看页面源代码。你能看到那里的下拉框的链接吗?如果是,那么 nutch 将抓取那些外链,否则不会。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2011-02-02
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多