【问题标题】:Link Checker (Spider Crawler)链接检查器(蜘蛛爬虫)
【发布时间】:2010-12-03 08:54:44
【问题描述】:

我正在寻找一个链接检查器来抓取我的网站并记录无效链接,问题是我在开始时有一个登录页面,这是必需的。我想要的是一个链接检查器来运行命令后登录详细信息,然后蜘蛛网站的其余部分。

任何想法都会受到赞赏。

【问题讨论】:

    标签: python hyperlink web-crawler


    【解决方案1】:

    您想查看 cookielib 模块:http://docs.python.org/library/cookielib.html。它实现了 cookie 的完整实现,可以让您存储登录详细信息。使用 CookieJar 后,您只需从用户(例如,从控制台)获取登录详细信息并提交正确的 POST 请求。

    【讨论】:

      【解决方案2】:

      我最近刚刚解决了一个类似的问题:

      import urllib
      import urllib2
      import cookielib
      
      login = 'user@host.com'
      password = 'secret'
      
      cookiejar = cookielib.CookieJar()
      urlOpener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookiejar))
      
      # adjust this to match the form's field names
      values = {'username': login, 'password': password}
      data = urllib.urlencode(values)
      request = urllib2.Request('http://target.of.POST-method', data)
      url = urlOpener.open(request)
      # from now on, we're authenticated and we can access the rest of the site
      url = urlOpener.open('http://rest.of.user.area')
      

      【讨论】:

        猜你喜欢
        • 2013-11-30
        • 2017-09-11
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2012-04-06
        • 1970-01-01
        • 2012-08-29
        相关资源
        最近更新 更多