【发布时间】:2011-12-13 09:43:38
【问题描述】:
我已经下载了 websphinx 来执行此操作,但我需要它询问我网站的用户名和密码,然后将用户名和密码提交给网站,一旦通过身份验证,它应该开始抓取内部链接和子链接并保存静态数据将页面结束到excel文件中。是否有任何其他方法或爬虫可以做到这一点,但仅限于java
【问题讨论】:
-
saum22,这是什么授权? Apache auth,网站自定义 aut,还有什么?
-
互联网上有dis网站我需要爬取,但在主页上只有它要求输入用户名和密码。我应该怎么做,以便crwaler的用户输入用户名和密码,以及爬虫将输入的字段提交到网站表单,一旦通过身份验证,它应该开始在页面内浏览
标签: java file-io web-crawler websphinx