python 爬虫GET方法

import requests  # 导入requests包


def HTML_GET(URL):
    # 用 GET 方式获取数据需要调用 requests 库中的 get 方法,将获取到的数据存到 strhtml 变量中
    strhtml = requests.get(url)  # Get方式获取网页数据
    # 这个时候 strhtml 是一个 URL 对象，它代表整个网页，但此时只需要网页中的源码，下面的语句表示打印网页源码：
    print(strhtml.text)


# 写程序的入口，即程序的门：
if __name__ == \'__main__\':
    # 需要获取的网页源地址
    url = \'https://piaofang.maoyan.com/dashboard/\'
    # 调用HTML_GET函数功能
    HTML_GET(url)

# 参考内容:
# http://c.biancheng.net/view/2011.html
# https://blog.csdn.net/c406495762/article/details/78123502


"""
# -*- coding:UTF-8 -*-
from bs4 import BeautifulSoup
import requests


def GET_HTML_WORD(URL):
    # 用安装的BeautifulSoup解析器来提取所需标签内的内容，需要先获取到HTML的文本内容
    #这里使用的是GET方法
    strhtml = requests.get(url=URL).text
    # 添加, \'lxml\' 可以解决解析器引起的环境问题
    bs = BeautifulSoup(strhtml, \'lxml\')
    # 要提取的内容在 div 标签内，且标识符 id 为 content ， class 为 showtext
    texts = bs.find_all(\'div\', id="content", class_=\'showtxt\')
    # 用 replace 方法来替换提取内容中的非文字部分为 空行
    print(texts[0].text.replace(\'\xa0\' * 8, \'\n\n\'))


if __name__ == "__main__":
    url = \'https://www.bqkan8.com/42_42882/14586139.html\'
    GET_HTML_WORD(url)

参考内容：
https://blog.csdn.net/c406495762/article/details/78123502

"""