【问题标题】:Nutch: Authentication via putting a cookie in the headerNutch:通过在标头中放置 cookie 进行身份验证
【发布时间】:2014-02-12 07:42:48
【问题描述】:

令 Nutch 能够抓取需要身份验证的网站部分的支持或信息如此之少,我感到很惊讶。

我知道 Apache Nutch 目前可能无法 (but apparently hopes to) 支持 Http POST 身份验证。

但是,我们真正想做的只是能够将 cookie 添加到我们的 Nutch bot 标头中,这将允许它以这种方式访问​​网站的这些部分(而不是将用户名和密码发布到表单然后接收cookie)。

所以我花了很多时间搜索,很惊讶大多数关于此的讨论都可以追溯到 2005 年或 2008 年:herethereeverywhere

这么多年过去了,有没有办法解决这个限制,或者仍然无法通过给 Nutch 一个“预烘焙”cookie 来进行身份验证,以便它只能访问我们网站的部分会员?

【问题讨论】:

    标签: http authentication cookies solr nutch


    【解决方案1】:

    我已经在 nutch 协议-httpclient 插件中添加了自定义代码来解决这个问题。

    在下面的链接中分享了更改

    http://www.gingercart.com/Home/search-and-crawl/nutch-custom-authentication-cookies-session-management-to-crawl-secure-enterprise-websites

    【讨论】:

    • 您好 Mouli,您在上面的链接中提到的代码很好但是没有导入语句,因为我得到了编译时错误。另外,您能否分享您上传完整的基于形成的身份验证代码的链接
    • 嗨 Jayesh,我已经添加了导入。不幸的是,我无法共享 java 文件,因为它包含一些敏感内容。如果您还有其他问题,请告诉我。
    • 您好 Mouli,感谢您添加导入语句。但是你能告诉我你会从哪里调用以下函数吗? protected Response getResponse(URL url, WebPage page, boolean redirect) throws ProtocolException, IOException { }
    • 嗨 Jayesh,我们正在覆盖现有的回调方法 (getResponse)。它将在 nutch 爬行时调用。无需显式调用。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2021-11-20
    • 1970-01-01
    • 2015-09-13
    • 1970-01-01
    • 2011-06-21
    • 2021-09-21
    相关资源
    最近更新 更多