scrapy爬取豆瓣电影信息

最近在学python，对python爬虫框架十分着迷，因此在网上看了许多大佬们的代码，经过反复测试修改，终于大功告成！

原文地址是：https://blog.csdn.net/ljm_9615/article/details/76694188

我的运行环境是win10，用的是python3.6，开发软件pycharm

1.创建项目

cmd进入你要创建的目录下面，scrapy startproject doubanmovie

用pycharm打开，目录如下：

scrapy爬取豆瓣电影信息

#在spiders文件夹下编写自己的爬虫

#在items中编写容器用于存放爬取到的数据

#在pipelines中对数据进行各种操作

# 在settings中进行项目的各种设置

2.编写代码

在items编写数据对象方便对数据操作管理，代码如下

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/items.html

import scrapy


class MovieItem(scrapy.Item):
    # 电影名字
    name = scrapy.Field()
    # 电影信息
    info = scrapy.Field()
    # 评分
    rating = scrapy.Field()
    # 评论人数
    num = scrapy.Field()
    # 经典语句
    quote = scrapy.Field()
    # 电影图片
    img_url = scrapy.Field()
    #序号
    id_num = scrapy.Field()

View Code