1、安装scrapy框架
⑴Pip install scrapy->VC++14.0 Twisted(安装时容易出现问题:所以采用离线安装)
⑵在cmd运行scrapy命令时,要找到exe对应的文件夹,虽然安装目录在F:\python38\Lib\site-packages中,但是scrapy.exe在F:\python38\Scripts目录下,因此要在F:\python38\Scripts执行命令。
scrapy基础学习

⑶运行scrapy命令,出现以上图示,并不代表安装成功。用scrapy bench命令测试是否真的成功。
⑷安装时易出现的错误
pip install scrapy ->VC++14.0 Twisted
解决办法:离线安装 pip install xxx.whl
scrapy bench 运行的时候报错–>32
解决办法:pip install pywin32


二、创建项目
1、创建scrapy项目
scrapy startproject testspider
创建项目成功以后会有如下界面:
scrapy基础学习
项目结构如图所示:
scrapy基础学习

2、创建爬虫项目(注意项目名和爬虫名一定不同,创建爬虫名字的时候需要将目录切换到\reviewspider文件夹以下)
cd reviewspider
//创建爬虫:scrapy genspider 爬虫名 域名
scrapy genspider 21centry 21cnjy.com
创建成功以后,spiders文件夹中生成 21centry.py文件
scrapy基础学习
3、修改配置settings
(1)ROBOTSTXT_OBEY = True,将其改为False,并去掉其注释。
(2)修改USER-AGENT,并去掉其注释。
例如:利用google查找一个useragent,将其复制到settings里面的USER-AGENT
scrapy基础学习
4、分析页面
在a21centrySpider.py中编写代码,进行页面分析
例如:在console中打印相关的信息
print(response.xpath(‘爬取内容的xpath’).extract())
其中,xpath可以通过页面进行拷贝,但需要注意的是拷贝的xpath有时需要细微调整才能正常运行。
scrapy基础学习
例如:xpath(’//*[@id=“con-ar”]/div/div/div/table/tbody/tr/td/a/text()’).extract())
')
xpath返回的是列表类型。
text()提取文本:
extract()将xpath转换为Unicode字符串,返回的仍然是列表,取值时注意使用列表的方法进行取值。
5、爬取内容
爬取命令:scrapy crawl 21centry

相关文章:

  • 2022-12-23
  • 2021-09-21
  • 2021-07-07
  • 2022-12-23
  • 2021-06-19
  • 2021-10-13
  • 2021-04-04
猜你喜欢
  • 2022-12-23
  • 2021-11-23
  • 2022-02-27
  • 2021-12-27
  • 2021-06-15
相关资源
相似解决方案