扯淡
由于项目需求,需要开发一些程序去爬取一些网站的信息,算是小爬虫程序吧。爬网页这东西是要经过网络传输,如果程序运行起来串行执行请求爬取,会很慢,我想没人会这样做。为了提高爬取效率,必须使用多线程并行爬取。这时候就需要线程池了。池的概念,我想做开发的都应该知道,目的就是对资源的合理运用。刚开始的时候,我首先想到的就是 .net 框架下的线程池 ThreadPool,毕竟是自带的,在性能、稳定性方面肯定没问题。但在琢磨了几天后,.net 框架下自带的这个 ThreadPool 让我很不放心。1.ThreadPool 是一个静态类!!也就是说,当程序运行起来以后,这个池是整个应用程序域共享的,.net 框架很大,程序运行了以后,除了咱们自己往这个共享池里塞任务,谁知道有没有其他的类、代码、任务也会往里塞 workItem 呢?也就是说,假如我设置这个共享池大小为 10,但实际为我们工作的线程会不到 10 个,这就会导致程序运行时达不到我们预期的效果。2.目前我们的爬虫程序设计是像一个服务一样挂着,只要程序启动了以后就会一直运行着,除非手动停止。因此,在没有爬取任务的时候,需要减少甚至清空池内的所有线程,以免池内线程一直挂着占用系统资源。由于 .net 自带的这个线程池是共享的,我还真不敢随意调整它的大小,对于我这种控制欲极强的程序员来说,这是万万接受不了的。虽然.net 自带的 ThreadPool 用法简单,功能强大,而且它还可以智能的调节池内线程池数量,但我还是决定抛弃它,因为,我需要一个可控的线程池!于是开始到网上到处查找有没有其它现成的线程池。百度、谷歌了好久,发现在.net界比较成熟的就 SmartThreadPool,对 SmartThreadPool 简单了解以后,还是觉得它不是我想要的,于是决定,自造一个。于是,借助强大的网络,又开始网上到处搜索有关线程池如何实现以及相关注意事项之类的信息,也拜读过一些网上开源的项目,如 .net 的 SmartThreadPool、java 里的 ThreadPoolExecutor 等,虽然没接触过 java,但 java 和 C# 犹如亲兄弟,大同小异,让我这 .net coder 读起来不是很费劲。基于前人的实现思路,再融入自己的思想,脑中自己的池也慢慢浮现…
线程池:IThreadPool
根据需求,首先定义基本接口
public interface IThreadPool : IDisposable { /// <summary> /// 线程池大小 /// </summary> int Threads { get; set; } /// <summary> /// 一个以毫秒为单位的值,表示从最后一个活动的线程执行完任务后开始计时,在指定的时间内线程池都没有接收到任何任务,则释放掉池内的所有线程。若设置值小于 0,则不会释放池内线程。如未指定,默认为 -1。 /// </summary> double KeepAliveTime { get; set; } /// <summary> /// 获取当前线程池内的空闲线程数量 /// </summary> /// <returns></returns> int GetAvailableThreads(); /// <summary> /// 获取当前线程池内工作项总数 /// </summary> /// <returns></returns> int GetWorkCount(); /// <summary> /// 向线程池中添加工作项 /// </summary> /// <param name="callback"></param> /// <param name="state"></param> /// <returns></returns> bool QueueWorkItem(WaitCallback callback, object state); }