python3+scrapy 趣头条爬虫实例

项目简介

爬取趣头条新闻（http://home.qutoutiao.net/pages/home.html），具体内容：
1、列表页（json）：标题，简介、封面图、来源、发布时间
2、详情页（html）：详细内容和图片

目录结构

生成的数据文件-单条记录

主要代码说明

爬虫：
#爬取趣头条列表和详情页
qutoutiao.spiders.qutoutiaos.QutoutiaosSpider
管道文件：
#封面图片处理类
qutoutiao.imagepipelines.CoverImagePipeline
#内容图片处理类
qutoutiao.imagepipelines.ContentImagePipeline
#数据处理类
qutoutiao.pipelines.QutoutiaoPipeline
中间件：
#请求头设置类-这里只设置了user agent
qutoutiao.middlewares.RandomUserAgent
#代理设置类

qutoutiao.middlewares.RandomProxy

自定义：
#配置文件
qutoutiao.qttconfig.py
#工具类
qutoutiao.qttutils.QttUtils

创建项目

cd /home/chaoge/mypython/crawler/

scrapy startproject qutoutiao

创建爬虫类即(qutoutiao.spiders.qutoutiaos.QutoutiaosSpider)

cd qutoutiao/qutoutiao/spiders
scrapy genspider qutoutiaos "api.1sapp.com"

执行

scrapy crawl qutoutiaos

#scrapy crawl qutoutiaos --nolog#不显示log

#scrapy crawl qutoutiaos -o qutoutiaos_log.json #将log输出到qutoutiaos_log.json

代码实现

qutoutiao.qttconfig.py

# 爬取域名（趣头条）
DOMAIN = \'http://home.qutoutiao.net/pages/home.html\'

#数据存储路径
DATA_STORE = \'/home/chaoge/mypython/crawler/qutoutiao/data\'

#列表：http://api.1sapp.com/content/outList?cid=255&tn=1&page=1&limit=10
#列表API
LIST_API = \'http://api.1sapp.com/content/outList?\'
#列表记录数
LIST_LIMIT = 10
#分类
CATEGORY_INFO = [
	{"cid":255,"name":"推荐"},
	{"cid":1,"name":"热点"},
	{"cid":6,"name":"娱乐"},
	{"cid":5,"name":"养生"},
	{"cid":2,"name":"搞笑"},
	{"cid":7,"name":"科技"},
	{"cid":8,"name":"生活"},
	{"cid":10,"name":"财经"},
	{"cid":9,"name":"汽车"},
]

qutoutiao.qttutils.py

# -*- coding: utf-8 -*- 
# 趣头条工具类

import time
import os
import shutil
from qutoutiao import qttconfig as QttConfig

class QttUtils:

	# 获取存储路径
	#
	# @param  [string] action [remove删除目录，默认create]
	# @return [string] path/year/month/day/*

	@staticmethod
	def getStorePath(action=\'create\'):
		localtimes = time.localtime()
		year = time.strftime("%Y", localtimes)
		month = time.strftime("%m", localtimes)
		day = time.strftime("%d", localtimes)
		store_path = QttConfig.DATA_STORE+"/%s/%s/%s"%(year,month,day)

		#删除目录
		if os.path.exists(store_path) and action == \'remove\':
			#os.rmdir(store_path)  
			shutil.rmtree(store_path)

		#创建多级目录
		if not os.path.exists(store_path) and action == \'create\':
			os.makedirs(store_path)

		return store_path

qutoutiao.settings.py

# -*- coding: utf-8 -*-

# Scrapy settings for qutoutiao project
#
# For simplicity, this file contains only settings considered important or
# commonly used. You can find more settings consulting the documentation:
#
#     https://doc.scrapy.org/en/latest/topics/settings.html
#     https://doc.scrapy.org/en/latest/topics/downloader-middleware.html
#     https://doc.scrapy.org/en/latest/topics/spider-middleware.html

BOT_NAME = \'qutoutiao\'

SPIDER_MODULES = [\'qutoutiao.spiders\']
NEWSPIDER_MODULE = \'qutoutiao.spiders\'

#日志
#LOG_FILE = "qutoutiao.log"
#日志等级
#LOG_LEVEL = "DEBUG"

# Crawl responsibly by identifying yourself (and your website) on the user-agent
#USER_AGENT = \'qutoutiao (+http://www.yourdomain.com)\'

# Obey robots.txt rules
ROBOTSTXT_OBEY = True

# Configure maximum concurrent requests performed by Scrapy (default: 16)
#CONCURRENT_REQUESTS = 32

# Configure a delay for requests for the same website (default: 0)
# See https://doc.scrapy.org/en/latest/topics/settings.html#download-delay
# See also autothrottle settings and docs
#DOWNLOAD_DELAY = 3
# The download delay setting will honor only one of:
#CONCURRENT_REQUESTS_PER_DOMAIN = 16
#CONCURRENT_REQUESTS_PER_IP = 16

# Disable cookies (enabled by default)
#COOKIES_ENABLED = False

# Disable Telnet Console (enabled by default)
#TELNETCONSOLE_ENABLED = False

# Override the default request headers:
#DEFAULT_REQUEST_HEADERS = {
#    \'User-Agent\': \'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.108 Safari/537.36\',
#   \'Accept\': \'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8\',
#   \'Accept-Language\': \'en\',
#}

# Enable or disable spider middlewares
# See https://doc.scrapy.org/en/latest/topics/spider-middleware.html
SPIDER_MIDDLEWARES = {
#    \'qutoutiao.middlewares.QutoutiaoSpiderMiddleware\': 543,
     \'scrapy.contrib.spidermiddleware.offsite.OffsiteMiddleware\': None,#spider中的allowed_domains将不受限制
}

# Enable or disable downloader middlewares
# See https://doc.scrapy.org/en/latest/topics/downloader-middleware.html
DOWNLOADER_MIDDLEWARES = {
   \'qutoutiao.middlewares.RandomUserAgent\': 100,
   \'qutoutiao.middlewares.RandomProxy\': 200,
}
#中间件中的UserAgent池
USER_AGENTS = [
        \'User-Agent:Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50\',
        \'User-Agent:Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50\',
        \'User-Agent:Mozilla/5.0 (Windows NT 10.0; WOW64; rv:38.0) Gecko/20100101 Firefox/38.0\',
        \'User-Agent:Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; .NET4.0C; .NET4.0E; .NET CLR 2.0.50727; .NET CLR 3.0.30729; .NET CLR 3.5.30729; InfoPath.3; rv:11.0) like Gecko\',
        \'User-Agent:Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;\',
        \'User-Agent:Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; en) Presto/2.8.131 Version/11.11\',
        \'User-Agent:Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11\',
        \'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36\',
        \'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11\',
        \'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/534.16 (KHTML, like Gecko) Chrome/10.0.648.133 Safari/534.16\',
]
#中间件中的Proxy池
PROXIES = [
        {\'ip_port\':\'121.42.140.113:16816\',\'user_password\':\'username-xxxx:password-xxxx\'},
        {\'ip_port\':\'117.90.137.181:9000\'},
        {\'ip_port\':\'117.90.2.151:9000\'},
        {\'ip_port\':\'114.235.23.147:9000\'},
]


# Enable or disable extensions
# See https://doc.scrapy.org/en/latest/topics/extensions.html
#EXTENSIONS = {
#    \'scrapy.extensions.telnet.TelnetConsole\': None,
#}

# Configure item pipelines
# See https://doc.scrapy.org/en/latest/topics/item-pipeline.html
ITEM_PIPELINES = {
    \'qutoutiao.imagepipelines.CoverImagePipeline\': 301,#封面图片下载
    \'qutoutiao.imagepipelines.ContentImagePipeline\': 302,#内容图片下载
    \'qutoutiao.pipelines.QutoutiaoPipeline\': 400,#数据处理
}
#图片存储路径
IMAGES_STORE = "/home/chaoge/mypython/crawler/qutoutiao/tmp/images"
#缩图设置
#IMAGES_THUMBS = {
#    \'small\':(50,50),
#    \'big\':(270,270),
#}
#图片宽和高在110*110以下忽略
IMAGE_MIN_HEIGHT = 110
IMAGE_MIN_WIDTH = 110
# Enable and configure the AutoThrottle extension (disabled by default)
# See https://doc.scrapy.org/en/latest/topics/autothrottle.html
#AUTOTHROTTLE_ENABLED = True
# The initial download delay
#AUTOTHROTTLE_START_DELAY = 5
# The maximum download delay to be set in case of high latencies
#AUTOTHROTTLE_MAX_DELAY = 60
# The average number of requests Scrapy should be sending in parallel to
# each remote server
#AUTOTHROTTLE_TARGET_CONCURRENCY = 1.0
# Enable showing throttling stats for every response received:
#AUTOTHROTTLE_DEBUG = False

# Enable and configure HTTP caching (disabled by default)
# See https://doc.scrapy.org/en/latest/topics/downloader-middleware.html#httpcache-middleware-settings
#HTTPCACHE_ENABLED = True
#HTTPCACHE_EXPIRATION_SECS = 0
#HTTPCACHE_DIR = \'httpcache\'
#HTTPCACHE_IGNORE_HTTP_CODES = []
#HTTPCACHE_STORAGE = \'scrapy.extensions.httpcache.FilesystemCacheStorage\'

qutoutiao.items.py

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/items.html

import scrapy

class QutoutiaoItem(scrapy.Item):
	# define the fields for your item here like:

	#文章id
	aid = scrapy.Field()
	#来源
	source_name = scrapy.Field()
	#标题
	title = scrapy.Field()
	#详细页url
	url = scrapy.Field()
	#简介
	introduction = scrapy.Field()
	#封面图
	cover = scrapy.Field()
	#发布时间
	publish_time = scrapy.Field()
	#分类ID
	cid = scrapy.Field()
	#内容
	content = scrapy.Field()
	#内容-中的图片
	content_images = scrapy.Field()

qutoutiao.middlewares.py

# -*- coding: utf-8 -*- 

import random
import base64
from settings import USER_AGENTS
from settings import PROXIES

#随机User-Agent
class RandomUserAgent(object):
	def process_request(self,request,spider):
		useragent = random.choice(USER_AGENTS)
		request.headers.setdefault(\'User-Agent\',useragent)
		#request.headers.setdefault(\'Host\',\'html2.qktoutiao.com\')
		#request.headers.setdefault(\'Referer\',\'http://home.qutoutiao.net/pages/home.html\')

#随机代理	
class RandomProxy(object):
	def process_request(self,request,spider):
		proxy = random.choice(PROXIES)
		request.meta[\'proxy\'] = \'http://\'+proxy[\'ip_port\']
		#base64_user_password = base64.b64encode(bytes(proxy[\'user_password\'], \'utf-8\'))
		#decodebs64 = base64.b64decode(base64_user_password)
		#print(base64_user_password,decodebs64)
		if \'user_password\' in proxy and proxy[\'user_password\']:#需要用户名密码的代理
			base64_user_password = str(base64.b64encode(bytes(proxy[\'user_password\'], \'utf-8\')))
			request.headers[\'Proxy-Authorization\'] = \'Basic \'+base64_user_password

qutoutiao.imagepipelines.py

# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don\'t forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html

import scrapy
from scrapy.utils.project import get_project_settings
from scrapy.pipelines.images import ImagesPipeline
import os
from qutoutiao.qttutils import QttUtils

#封面图下载
class CoverImagePipeline(ImagesPipeline):
	#获取settings中的常量
	IMAGES_STORE = get_project_settings().get(\'IMAGES_STORE\')
	#下载图片
	def get_media_requests(self, item, info):
		cover_images = item[\'cover\']
		if cover_images:
			for image_url in cover_images:
				yield scrapy.Request(url=image_url)


	#下载完成
	def item_completed(self, results, item, info):
		#print(\'*\'*20,results,item,info)
		image_path = [x[\'path\'] for ok, x in results if ok] 
		#获取自定义存储路径
		store_path = QttUtils.getStorePath()
		coverImages = []
		#将图片移动到新的路径
		if image_path:
			for image_url in image_path:
				file_name = os.path.split(str(image_url))
				new_image = store_path+"/"+file_name[1]
				coverImages.append(new_image)
				os.rename(self.IMAGES_STORE+"/"+image_url,new_image)
		item[\'cover\'] = coverImages
		return item
#内容图片下载
class ContentImagePipeline(ImagesPipeline):
	#获取settings中的常量
	IMAGES_STORE = get_project_settings().get(\'IMAGES_STORE\')
	#下载图片
	def get_media_requests(self, item, info):
		content_images = item[\'content_images\']
		if content_images:
			for image_url in content_images:
				yield scrapy.Request(image_url)

	#下载完成
	def item_completed(self, results, item, info):
		image_info = [(x[\'path\'],x[\'url\']) for ok, x in results if ok] 
		#获取自定义存储路径
		store_path = QttUtils.getStorePath()
		contentImages = []
		#将图片移动到新的路径
		if image_info:
			for value in image_info:
				image_url = value[0]
				image_source = value[1]
				file_name = os.path.split(str(image_url))
				new_image = store_path+"/"+file_name[1]
				contentImages.append((new_image,image_source))
				os.rename(self.IMAGES_STORE+"/"+image_url,new_image)
		item[\'content_images\'] = contentImages
		return item

qutoutiao.pipelines.py

# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don\'t forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html

import json
from qutoutiao.qttutils import QttUtils

class QutoutiaoPipeline(object):
	def __init__(self):
		#获取自定义存储路径
		store_path = QttUtils.getStorePath()
		json_path = store_path+"/"+"qutoutiao.json"
		self.filename = open(json_path,"wb")

	def process_item(self, item, spider):
		text = json.dumps(dict(item),ensure_ascii=False)+"\n"
		self.filename.write(text.encode("utf-8"))
		return item

	def close_spider(self,spider):
		self.filename.close()

qutoutiao.spiders.qutoutiaos.py

# -*- coding: utf-8 -*-
#web site:http://home.qutoutiao.net/pages/home.html

import scrapy
#通过CrawlSpider,Rule类爬取
#-*-from scrapy.spiders import CrawlSpider,Rule-*-
#-*-from scrapy.linkextractors import LinkExtractor-*-
from qutoutiao.items import QutoutiaoItem
import json
import re
from qutoutiao import qttconfig as QttConfig

#-*-class QutoutiaosSpider(CrawlSpider):-*-

class QutoutiaosSpider(scrapy.Spider):
	name = \'qutoutiaos\'
	allowed_domains = [\'api.1sapp.com\']

	#爬取地址
	start_urls = []
	categoryInfo = QttConfig.CATEGORY_INFO
	limit = QttConfig.LIST_LIMIT
	for value in categoryInfo:
			url = QttConfig.LIST_API+"cid=%s&tn=1&page=1&limit=%s"%(str(value[\'cid\']),str(limit))
			start_urls.append(url)

	#response里链接的提取规则
	# -*-pageLink = LinkExtractor(allow=("start=\d+"))-*-
	# -*-rules = [
	# -*-   #用pageLink提取规则跟进，通过parseQtt进行解析
	# -*-   Rule(pageLink,callback="parseQtt",follow=True)
	# -*-]
	def parse(self, response):
		response_url = response.url
		#分类id从url又获取了一次
		searchObj = re.search( r\'(.*)cid=(\d+)\', response_url)
		cid = searchObj and searchObj.group(2) or 0 

		data = json.loads(response.text)[\'data\'][\'data\']
	
		for value in data:
			#初始化模型对象
			item = QutoutiaoItem()
			#来源
			item[\'source_name\'] = value[\'source_name\']
			#标题
			item[\'title\'] = value[\'title\']
			#详细页url
			url = item[\'url\'] = value[\'url\']
			#url = url[0:url.find(\'?\')]
			#简介
			item[\'introduction\'] = value[\'introduction\']
			#封面图
			item[\'cover\'] = value[\'cover\']
			#发布时间
			item[\'publish_time\'] = value[\'publish_time\']
			#分类
			item[\'cid\'] = cid

			#爬取详情页
			yield scrapy.Request( url = item[\'url\'], meta={\'meta_item\': item}, callback=self.detail_parse)

	#详情页
	def detail_parse(self, response):
		# 提取每次Response的meta数据
		meta_item = response.meta[\'meta_item\']
		#取内容
		content_selector = response.xpath(\'//div[@class="content"]\')
		meta_item[\'content_images\'] = content_selector.xpath(\'//img/@src|//img/@data-src\').extract()
		meta_item[\'content\'] = content_selector.extract()[0]
		yield meta_item