前言
作为Java世界中小白的我(瑟瑟发抖的状态),在网络数据抓取这一块简直是一无所知.天无绝人之路,这时候我们老大向我推荐一个很好用的爬虫框架WebCollector,WebCollector是一个无须配置、便于二次开发的JAVA爬虫框架,它提供精简的的API,只需少量代码即可实现一个功能强大的爬虫。WebCollector-Hadoop是WebCollector的Hadoop版本,支持分布式爬取。WebCollector用起来个人赶脚还是非常的简单轻便的,这里就以一个初学者的身份简单分享一下WebCollector.
WebCollector的特点
如果我们使用一个框架,那么我们最需要明白它的优势和缺点,这样我们才能更好的发挥它的作用.由于我对网络数据爬取这一块现在只了解到WebCollector框架,所以我就从网上找了一些关于WebCollector的资料,然后整理一下.
WebCollector与传统网络爬虫的区别
传统的网络爬虫倾向于整站下载,目的是将网站内容原样下载到本地,数据的最小单元是单个网页或文件。而WebCollector可以通过设置爬取策略进行定向采集,并可以抽取网页中的结构化信息。
WebCollector与HttpClient、Jsoup的区别
WebCollector是爬虫框架,HttpClient是Http请求组件,Jsoup是网页解析器(内置了Http请求功能)。
一些程序员在单线程中通过迭代或递归的方法调用HttpClient和Jsoup进行数据采集,这样虽然也可以完成任务,但存在两个较大的问题:
单线程速度慢,多线程爬虫的速度远超单线程爬虫。
需要自己编写任务维护机制。这套机制里面包括了URL去重、断点爬取(即异常中断处理)等功能。
WebCollector框架自带了多线程和URL维护,用户在编写爬虫时无需考虑线程池、URL去重和断点爬取的问题。
WebCollector能够处理的量级
WebCollector目前有单机版和Hadoop版(WebCollector-Hadoop),单机版能够处理千万级别的URL,对于大部分的精数据采集任务,这已经足够了。WebCollector-Hadoop能够处理的量级高于单机版,具体数量取决于集群的规模。
WebCollector的遍历
WebCollector采用一种粗略的广度遍历,但这里的遍历与网站的拓扑树结构没有任何关系,用户不需要在意遍历的方式。PS:这一点作为小白的我是深有体会...