通用网页抓取设计

网页抓取是一个比较简单的工作，主要分为以下三步：一：分析要抓取的网页，获取待抓取的页面地址；二、用下载方式缓存网页，如果网站设置有访问时间限制，就要用这步来缓存；三、分析缓存中的网页，整理数据

在所有步骤中，对于所有的网站，只有获取换取地址、缓存网页、处理网页这几个方式不一定一样，其它的处理方式，都可以认为是一样的

接口设计

包括地址抓取、处理、文件缓存、消息传递委托类型，消息类型;

接口说明：

}

接口：

}

只要根据不同的网站实现上面的两个接口，就可以实现网页的抓取，处理，再也不用管理浏览器的怎样加载文件