- Anaconda是一个集成环境(基于机器学习和数据分析的开发环境)
- 基于浏览器的一种可视化开发工具:jupyter notebook
- 可以在指定目录的终端中录入jupyter notebook指令,然后启动服务。
- cell是分为不同模式的:
- Code:编写python代码
- markDown:编写笔记
- 快捷键:
- 添加cell:a,b
- 删除cell:x
- 执行:shift+enter
- tab:
- 切换cell的模式:
- m ==>markdowm模式
- y ==》代码模式
- 打开帮助文档:shift+tab
环境变量配置
在某个文件夹下shift+右键 打开powershell 输入jupyter notebook打开 web ,即当前目录是web 的根目录
-
-
规避风险:
-
严格遵守网站设置的robots协议;
-
在规避反爬虫措施的同时,需要优化自己的代码,避免干扰被访问网站的正常运行;
-
在使用、传播抓取到的信息时,应审查所抓取的内容,如发现属于用户的个人信息、隐私或者他人的商业秘密的,应及时停止并删除。
-
-
-
robots协议:文本协议
-
- www.xx.com/robots.txt 查看
- 特性:防君子不防小人的文本协议
二、requtest
- 什么是requests模块?
- Python中封装好的一个基于网络请求的模块。
- requests模块的作用?
- 用来模拟浏览器发请求
- requests模块的环境安装:
- pip install requests
- requests模块的编码流程:
- 1.指定url
- 2.发起请求
- 3.获取响应数据
- 4.持久化存储
import requests #1.指定url url = 'https://www.sogou.com/' #2.请求发送get:get返回值是一个响应对象 response = requests.get(url=url) #3.获取响应数据 page_text = response.text #返回的是字符串形式的响应数据 #4.持久化存储 with open('sogou.html','w',encoding='utf-8') as fp: fp.write(page_text)