【发布时间】:2013-02-16 18:05:20
【问题描述】:
您好,我可以抓取未使用 html 敏捷包保护的 http 网站。但是某些受 https 保护的网站将需要身份验证(可能是表单身份验证)才能查看其内容,因此我无法抓取。我看到了 IBM 的 omnifind 爬虫插件,我们可以将它用于 .net。各位大佬能指点一下如何处理吗?
【问题讨论】:
标签: .net asp.net-mvc-3 c#-4.0
您好,我可以抓取未使用 html 敏捷包保护的 http 网站。但是某些受 https 保护的网站将需要身份验证(可能是表单身份验证)才能查看其内容,因此我无法抓取。我看到了 IBM 的 omnifind 爬虫插件,我们可以将它用于 .net。各位大佬能指点一下如何处理吗?
【问题讨论】:
标签: .net asp.net-mvc-3 c#-4.0
您显然需要凭据,因此您应该理清身份验证位的工作原理。
假设它是基于表单的,那么使用 CookieContainer (http://msdn.microsoft.com/en-us/library/dd920298(v=vs.95).aspx) 实现某些东西应该不会有任何问题
该链接底部的示例显示了如何迭代从站点返回的 cookie。
这里有一个现有问题也应该可以帮助指导您:WebRequest class to post data to login form
干杯。
【讨论】: