使用scrapy爬取网站的商品数据

目标是爬取网站http://www.muyingzhijia.com/上全部的商品数据信息，包括商品的一级类别，二级类别，商品title，品牌，价格。

搜索了一下，python的scrapy是一个不错的爬虫框架，于是基于scrapy写了一个简易的爬虫。

先分析商品页面，在http://www.muyingzhijia.com/主页面上，有类链接有用的链接，即：http://www.muyingzhijia.com/Shopping/category.aspx?cateID=11和http://www.muyingzhijia.com/Shopping/subcategory.aspx?cateID=185&small=1，前者为一级类别，后者为二级类别，这两级类别含有部分商品信息，但是没有包含文章开头所需的五类商品信息。而与http://www.muyingzhijia.com/shopping/productdetail.aspx?pdtID=33158&fromPromType=tttj类似的链接中，上述五种信息，均包含。所以计划以http://www.muyingzhijia.com/Shopping/alllist.aspx，http://www.muyingzhijia.com/Shopping/category.aspx?cateID，http://www.muyingzhijia.com/Shopping/subcategory.aspx?cateID三类链接为入口，对http://www.muyingzhijia.com/Shopping/category.aspx?cateID及http://www.muyingzhijia.com/Shopping/subcategory.aspx?cateID类链接进行自动抓取，同时遇到http://www.muyingzhijia.com/shopping/productdetail.aspx?类链接，进行页面解析，解析出所需的五类信息。

爬虫实现了自动爬取，item去重，链接去重，取出的数据存入数据库。

代码详见： https://github.com/darlwen/spider