【发布时间】:2014-02-12 07:42:48
【问题描述】:
令 Nutch 能够抓取需要身份验证的网站部分的支持或信息如此之少,我感到很惊讶。
我知道 Apache Nutch 目前可能无法 (but apparently hopes to) 支持 Http POST 身份验证。
但是,我们真正想做的只是能够将 cookie 添加到我们的 Nutch bot 标头中,这将允许它以这种方式访问网站的这些部分(而不是将用户名和密码发布到表单然后接收cookie)。
所以我花了很多时间搜索,很惊讶大多数关于此的讨论都可以追溯到 2005 年或 2008 年:here、there、everywhere。
这么多年过去了,有没有办法解决这个限制,或者仍然无法通过给 Nutch 一个“预烘焙”cookie 来进行身份验证,以便它只能访问我们网站的部分会员?
【问题讨论】:
标签: http authentication cookies solr nutch