- Anaconda是一个集成环境(基于机器学习和数据分析的开发环境)
- 基于浏览器的一种可视化开发工具:jupyter notebook
- 可以在指定目录的终端中录入jupyter notebook指令,然后启动服务。
- cell是分为不同模式的:
- Code:编写python代码
- markDown:编写笔记
- 快捷键:
- 添加cell:a,b
- 删除cell:x
- 执行:shift+enter
- tab:
- 切换cell的模式:
    - m   ==>markdowm模式
    - y   ==》代码模式
- 打开帮助文档:shift+tab

 爬虫  1、用Anaconda的 jupyter notebook 写爬虫

 

 

 

环境变量配置

 爬虫  1、用Anaconda的 jupyter notebook 写爬虫

 

 在某个文件夹下shift+右键  打开powershell  输入jupyter notebook打开 web ,即当前目录是web 的根目录

    • 规避风险:

      • 严格遵守网站设置的robots协议;

      • 在规避反爬虫措施的同时,需要优化自己的代码,避免干扰被访问网站的正常运行;

      • 在使用、传播抓取到的信息时,应审查所抓取的内容,如发现属于用户的个人信息、隐私或者他人的商业秘密的,应及时停止并删除。

  • robots协议:文本协议

    • www.xx.com/robots.txt  查看
    • 特性:防君子不防小人的文本协议

二、requtest 

  • 什么是requests模块?
    • Python中封装好的一个基于网络请求的模块。
  • requests模块的作用?
    • 用来模拟浏览器发请求
  • requests模块的环境安装:
    • pip install requests
  • requests模块的编码流程:
    • 1.指定url
    • 2.发起请求
    • 3.获取响应数据
    • 4.持久化存储
import requests
#1.指定url
url = 'https://www.sogou.com/'
#2.请求发送get:get返回值是一个响应对象
response = requests.get(url=url)
#3.获取响应数据
page_text = response.text #返回的是字符串形式的响应数据
#4.持久化存储
with open('sogou.html','w',encoding='utf-8') as fp:
    fp.write(page_text)
#爬取搜狗首页的页面源码数据

相关文章:

  • 2021-04-03
  • 2021-04-02
  • 2021-11-23
  • 2021-12-24
  • 2021-05-16
  • 2021-04-08
猜你喜欢
  • 2022-01-08
  • 2022-01-11
  • 2021-09-19
  • 2022-12-23
  • 2021-11-14
  • 2021-04-18
  • 2021-11-18
相关资源
相似解决方案