爬取大众点评数据,使用多线程处理。

 

使用多线程爬取的目的是两个,

  一个是 多线程运行起来快。

第二则是 一个人访问的URL通过多线程的缘故变得杂乱无章,这样不容易被发爬机制 确定。

from concurrent.futures import ThreadPoolExecutor

通过引入 ThreadPoolExecutor 完成多线程操作,爬取 大众点评的 美食数据【二】

第二,爬取的过程中,每次爬取一个URL的内容后就    time.sleep(random.randint(0,4))

休眠0~4秒的随机数,这样访问的频率不那么高,就不容易被反派机制发现,被封锁IP了

相关文章: