案例4 百度搜索爬虫

import requests
import os

# 伪造请求头
headers = {
    "User-Agent": "请求头",
}


def baidu_spider(kw):
    """百度搜索 爬虫应用"""

    # 发送请求，获取响应数据
    ps = {"wd": kw}
    resp = requests.get("https://www.baidu.com/s?", params=ps, headers=headers)
    # 存储数据
    # resp.encoding = "UTF-8"
    # _save_data(resp.text)
    # ② 存储数据
    _save_data_binary(resp.content)


def _save_data(content: str) -> None:
    """保存数据"""
    # 判断存储数据的文件夹是否存在，不存在->创建
    _verify_data_diractory()
    # 存储数据
    with open("data/baidu_search2.html", mode="w") as file:
        file.write(content)


def _save_data_binary(content: bytes) -> None:
    """保存数据"""
    # 判断存储数据的文件夹是否存在，不存在->创建
    _verify_data_diractory()
    # 存储数据
    with open("data/baidu_search.html", mode="wb") as file:
        file.write(content)


def _verify_data_diractory():
    """验证数据文件夹是否存在"""
    # 判断存储数据的文件夹是否存在，不存在->创建
    if not os.path.exists("data"):
        os.mkdir("data")


kw = input("请输入要搜索的关键词：")
baidu_spider(kw)