最近在学python,对python爬虫框架十分着迷,因此在网上看了许多大佬们的代码,经过反复测试修改,终于大功告成!
原文地址是:https://blog.csdn.net/ljm_9615/article/details/76694188
我的运行环境是win10,用的是python3.6,开发软件pycharm
1.创建项目
cmd进入你要创建的目录下面,scrapy startproject doubanmovie
用pycharm打开,目录如下:
#在spiders文件夹下编写自己的爬虫
#在items中编写容器用于存放爬取到的数据
#在pipelines中对数据进行各种操作
# 在settings中进行项目的各种设置
2.编写代码
在items编写数据对象方便对数据操作管理,代码如下
# -*- coding: utf-8 -*- # Define here the models for your scraped items # # See documentation in: # https://doc.scrapy.org/en/latest/topics/items.html import scrapy class MovieItem(scrapy.Item): # 电影名字 name = scrapy.Field() # 电影信息 info = scrapy.Field() # 评分 rating = scrapy.Field() # 评论人数 num = scrapy.Field() # 经典语句 quote = scrapy.Field() # 电影图片 img_url = scrapy.Field() #序号 id_num = scrapy.Field()