scrapy基础学习

1、安装scrapy框架
⑴Pip install scrapy->VC++14.0 Twisted(安装时容易出现问题：所以采用离线安装)
⑵在cmd运行scrapy命令时，要找到exe对应的文件夹，虽然安装目录在F:\python38\Lib\site-packages中，但是scrapy.exe在F:\python38\Scripts目录下，因此要在F:\python38\Scripts执行命令。
scrapy基础学习

⑶运行scrapy命令，出现以上图示，并不代表安装成功。用scrapy bench命令测试是否真的成功。
⑷安装时易出现的错误
pip install scrapy ->VC++14.0 Twisted
解决办法：离线安装 pip install xxx.whl
scrapy bench 运行的时候报错–>32
解决办法：pip install pywin32

二、创建项目
1、创建scrapy项目
scrapy startproject testspider
创建项目成功以后会有如下界面：
scrapy基础学习
项目结构如图所示：

2、创建爬虫项目（注意项目名和爬虫名一定不同，创建爬虫名字的时候需要将目录切换到\reviewspider文件夹以下）
cd reviewspider
//创建爬虫:scrapy genspider 爬虫名域名
scrapy genspider 21centry 21cnjy.com
创建成功以后，spiders文件夹中生成 21centry.py文件
scrapy基础学习
3、修改配置settings
(1)ROBOTSTXT_OBEY = True，将其改为False,并去掉其注释。
(2)修改USER-AGENT,并去掉其注释。
例如：利用google查找一个useragent,将其复制到settings里面的USER-AGENT

4、分析页面
在a21centrySpider.py中编写代码，进行页面分析
例如：在console中打印相关的信息
print(response.xpath(‘爬取内容的xpath’).extract())
其中，xpath可以通过页面进行拷贝，但需要注意的是拷贝的xpath有时需要细微调整才能正常运行。
scrapy基础学习
例如:xpath(’//*[@id=“con-ar”]/div/div/div/table/tbody/tr/td/a/text()’).extract())
')
xpath返回的是列表类型。
text()提取文本:
extract()将xpath转换为Unicode字符串，返回的仍然是列表，取值时注意使用列表的方法进行取值。
5、爬取内容
爬取命令：scrapy crawl 21centry