【问题标题】:How to do form authentication by entering username and password while web crawler is crawling pages网络爬虫爬取页面时如何通过输入用户名和密码进行表单身份验证
【发布时间】:2011-12-13 09:43:38
【问题描述】:

我已经下载了 websphinx 来执行此操作,但我需要它询问我网站的用户名和密码,然后将用户名和密码提交给网站,一旦通过身份验证,它应该开始抓取内部链接和子链接并保存静态数据将页面结束到excel文件中。是否有任何其他方法或爬虫可以做到这一点,但仅限于java

【问题讨论】:

  • saum22,这是什么授权? Apache auth,网站自定义 aut,还有什么?
  • 互联网上有dis网站我需要爬取,但在主页上只有它要求输入用户名和密码。我应该怎么做,以便crwaler的用户输入用户名和密码,以及爬虫将输入的字段提交到网站表单,一旦通过身份验证,它应该开始在页面内浏览

标签: java file-io web-crawler websphinx


【解决方案1】:

我对 websphinx 不熟悉,但您能否将 url 设置为包含基本身份验证的用户名和密码:

https://username:password@myserver.mydomain.com/

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2021-02-28
    相关资源
    最近更新 更多