第一步用chrome打开百度,右键检查,然后随便输入一个关键词,在网络里找到请求接口,获取请求url地址
用urllib.request请求这个接口
保存生成了一个html文件
这个是直接用浏览器展示出来的页面
这个是用爬虫爬取的html页面
虽然乍一看什么都没有,但是我们来搜索一下
内容都在下面,与浏览器显示的内容一致
现在这个爬虫还只能调用百度接口搜固定内容,让我们来优化一下。
之前的请求url里包含了许多参数,经过多次请求发现,部分参数不是必须传的
修改后的url请求
在关键字处用格式化字符串代替
运行结果:
=======================================================================
用requests.get() 方法发起请求
这里保存文件要用response.content
用response.text 返回str 但是保存起来会有编码问题
response.content 直接返回bytes