【发布时间】:2020-03-17 13:32:02
【问题描述】:
我在谷歌寻找图像爬虫。 然后我找到了Icrawler。 所以我只关注文档如何使用 Icrawler 库。
我的代码如下
from icrawler.builtin import GoogleImageCrawler
import os
save_dir = os.path.join('..', '..', 'images')
google_crawler = GoogleImageCrawler(storage={'root_dir':save_dir})
google_crawler.crawl(keyword='cat', max_num=50)
它只工作了 1 次,然后它就不起作用了。 我没有改变任何东西。
此代码显示如下
2020-03-17 22:25:38,151 - 信息 - icrawler.crawler - 开始爬行... 2020-03-17 22:25:38,151 - 信息 - icrawler.crawler - 启动 1 个馈线 线程... 2020-03-17 22:25:38,162 - 信息 - icrawler.crawler - 开始 1 个解析器线程... 2020-03-17 22:25:38,162 - INFO - feeder - 送线器 001 退出 2020-03-17 22:25:38,162 - 信息 - icrawler.crawler - 启动1个下载线程... 2020-03-17 22:25:38,901 - 信息 - 解析器 - 解析结果页面 https://www.google.com/search?q=cat&ijn=0&start=0&tbs=&tbm=isch 2020-03-17 22:25:41,003 - 信息 - 解析器 - 不再有线程的页面 URL parser-001 解析 2020-03-17 22:25:41,003 - INFO - parser - thread parser-001 退出 2020-03-17 22:25:43,163 - 信息 - 下载器 - 没有了 线程下载器-001 2020-03-17 22:25:43,163 的下载任务- INFO - 下载器 - 线程 downloader-001 退出 2020-03-17 22:25:43,212 - 信息 - icrawler.crawler - 抓取任务完成!
有什么问题吗?还是我做错了?
【问题讨论】:
标签: python web-crawler