链接检查器（蜘蛛爬虫）答案

【问题标题】：Link Checker (Spider Crawler)链接检查器（蜘蛛爬虫）
【发布时间】：2010-12-03 08:54:44
【问题描述】：

我正在寻找一个链接检查器来抓取我的网站并记录无效链接，问题是我在开始时有一个登录页面，这是必需的。我想要的是一个链接检查器来运行命令后登录详细信息，然后蜘蛛网站的其余部分。

任何想法都会受到赞赏。

【问题讨论】：

【解决方案1】：

您想查看 cookielib 模块：http://docs.python.org/library/cookielib.html。它实现了 cookie 的完整实现，可以让您存储登录详细信息。使用 CookieJar 后，您只需从用户（例如，从控制台）获取登录详细信息并提交正确的 POST 请求。

【讨论】：

【解决方案2】：

我最近刚刚解决了一个类似的问题：

import urllib
import urllib2
import cookielib

login = 'user@host.com'
password = 'secret'

cookiejar = cookielib.CookieJar()
urlOpener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookiejar))

# adjust this to match the form's field names
values = {'username': login, 'password': password}
data = urllib.urlencode(values)
request = urllib2.Request('http://target.of.POST-method', data)
url = urlOpener.open(request)
# from now on, we're authenticated and we can access the rest of the site
url = urlOpener.open('http://rest.of.user.area')

【讨论】：