【问题标题】:Crawling https websites which are forms authentication based爬取基于表单身份验证的 https 网站
【发布时间】:2013-02-16 18:05:20
【问题描述】:

您好,我可以抓取未使用 html 敏捷包保护的 http 网站。但是某些受 https 保护的网站将需要身份验证(可能是表单身份验证)才能查看其内容,因此我无法抓取。我看到了 IBM 的 omnifind 爬虫插件,我们可以将它用于 .net。各位大佬能指点一下如何处理吗?

【问题讨论】:

    标签: .net asp.net-mvc-3 c#-4.0


    【解决方案1】:

    您显然需要凭据,因此您应该理清身份验证位的工作原理。

    假设它是基于表单的,那么使用 CookieContainer (http://msdn.microsoft.com/en-us/library/dd920298(v=vs.95).aspx) 实现某些东西应该不会有任何问题

    该链接底部的示例显示了如何迭代从站点返回的 cookie。

    这里有一个现有问题也应该可以帮助指导您:WebRequest class to post data to login form

    干杯。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2014-12-13
      • 2012-06-06
      • 1970-01-01
      • 1970-01-01
      • 2012-12-14
      • 2011-10-24
      相关资源
      最近更新 更多