1061321925wu

一、scrapy的安装

1、确定安装python以及pip

2、由于我是用的是pycharm开发工具编写,所以需要下载这个软件

3、scrapy安装

打开命令行界面输入 pip install scrapy即可安装。

4、验证是否安装成功

 

输入 scrapy若有如下内容则安装成功

 

 二、scrapy工程的搭建

其后续步骤可参考https://blog.csdn.net/zjiang1994/article/details/52779537

其博文已经解释的十分清楚,十分适合对scrapy框架刚入门的同学学习参考。

本文说一下我在学习中遇到的问题。

1、慕课网的代码已经发生改变,其XPATH部分已经不可用,现将更新后的代码贴出如下

 for box in response.xpath(\'//div[@class="course-card-container"]/a[@target="_blank"]\'):
            item[\'url\']=\'http://www.imooc.com\'+box.xpath(\'.//@href\').extract()[0]
            item[\'title\']=box.xpath(\'.//h3/text()\').extract()[0].strip()
            item[\'image_url\']=\'http:\'+box.xpath(\'.//@data-original\').extract()[0]
            item[\'student\']=box.xpath(\'.//div[@class="course-card-info"]/span[2]/text()\').extract()[0].strip()
            item[\'introduction\'] = box.xpath(\'.//p[@class="course-card-desc"]/text()\').extract()[0].strip()
            #返回信息
            yield item

 2、如何在pycharm中运行scrapy工程

我们需要在scrapyTest工程文件夹下加入start.py

 

 

其代码为:

from scrapy import cmdline
#scrapy crawl itcast (itcast为爬虫名)
cmdline.execute("sscrapy crawl  MySpider".split())

 完成后需要在pycharm中进行设置

 

 

 

 将路径改为你刚才创建的start.py即可

3、图片无法下载至指定文件夹中(未解决)

4、其中爬虫用到了xpath的知识,https://www.w3school.com.cn/xpath/xpath_syntax.asp,可以参考本链接

,简单易懂。

 

分类:

技术点:

相关文章:

  • 2021-09-19
  • 2021-04-12
  • 2022-01-09
  • 2021-05-14
  • 2021-06-24
  • 2021-05-30
  • 2021-12-29
  • 2021-04-27
猜你喜欢
  • 2021-11-28
  • 2021-09-15
  • 2021-07-17
  • 2021-07-02
  • 2021-05-25
  • 2021-04-18
  • 2021-12-25
相关资源
相似解决方案