nutch 会爬过表格吗？答案

【问题标题】：Does nutch crawl over forms?nutch 会爬过表格吗？
【发布时间】：2012-05-10 15:07:03
【问题描述】：

我想知道 nutch 1.4 是否开箱即用。例如，如果有一个下拉列表，它是否会尝试从下拉列表中的项目中组合所有可能的页面？？

谢谢

【问题讨论】：

【解决方案1】：

Nutch 通过 HTTP 请求获取所需页面的 html 源。现在页面的 html 源代码可以包含其中编码的下拉列表。如果使用复杂的脚本（如 dojo / ajax）对其进行编码，那么它将无法像浏览器那样解释它。如果在 html 源代码中立即看到下拉列表的外链接，则 nutch 将抓取这些页面。除了正常的文本内容，Nutch 还对 html 页面的 Java 脚本部分进行解析。

现在为了验证这一点，在 bowser / wget 中打开页面。在记事本/vi 等文本编辑器中查看页面源代码。你能看到那里的下拉框的链接吗？如果是，那么 nutch 将抓取那些外链，否则不会。

【讨论】：