【发布时间】:2016-12-14 08:36:54
【问题描述】:
我正在尝试抓取一个网站,更具体地说,是一个使用 ManifoldCF 的 Google Site,它具有 SAML 身份验证并将抓取的数据索引到 Apache Solr。但是当我抓取 URL 时,它给了我 302 重定向到登录页面,然后说 RESPONSECODENOTINDEXABLE。
我不确定我的身份验证是否正确。在manifoldCF 中,我们有HTTP basic 身份验证、NTLM authentication 和Session-based 访问凭据身份验证方法的选项。我使用了Session based 身份验证方法,它看起来更像是基于表单的身份验证,而不是SAML 身份验证。
是否有人使用具有SAML 身份验证的manifoldCF 抓取了一个网站?如果不是manifoldCF,有没有人能够通过Apache Nutch 实现这一点,因为恐怕它也只提供HTTP basic、Digest 和NTLM 身份验证。
任何见解都会有所帮助。如果这里有人认为可以轻松完成,可以提供有关该问题的更多信息。基本上,当我爬取https://sites.google.com/a/my-sub-domain.com 时,它会重定向到 SSO 登录页面,并且爬虫拒绝再爬取,并给出 302 错误。这是一个基于 Intranet 的网站。
【问题讨论】:
标签: solr saml nutch full-text-indexing manifoldcf