import requests # 导入requests包
def HTML_GET(URL):
# 用 GET 方式获取数据需要调用 requests 库中的 get 方法,将获取到的数据存到 strhtml 变量中
strhtml = requests.get(url) # Get方式获取网页数据
# 这个时候 strhtml 是一个 URL 对象,它代表整个网页,但此时只需要网页中的源码,下面的语句表示打印网页源码:
print(strhtml.text)
# 写程序的入口,即程序的门:
if __name__ == \'__main__\':
# 需要获取的网页源地址
url = \'https://piaofang.maoyan.com/dashboard/\'
# 调用HTML_GET函数功能
HTML_GET(url)
# 参考内容:
# http://c.biancheng.net/view/2011.html
# https://blog.csdn.net/c406495762/article/details/78123502
"""
# -*- coding:UTF-8 -*-
from bs4 import BeautifulSoup
import requests
def GET_HTML_WORD(URL):
# 用安装的BeautifulSoup解析器来提取所需标签内的内容,需要先获取到HTML的文本内容
#这里使用的是GET方法
strhtml = requests.get(url=URL).text
# 添加, \'lxml\' 可以解决解析器引起的环境问题
bs = BeautifulSoup(strhtml, \'lxml\')
# 要提取的内容在 div 标签内,且标识符 id 为 content , class 为 showtext
texts = bs.find_all(\'div\', id="content", class_=\'showtxt\')
# 用 replace 方法来替换提取内容中的非文字部分为 空行
print(texts[0].text.replace(\'\xa0\' * 8, \'\n\n\'))
if __name__ == "__main__":
url = \'https://www.bqkan8.com/42_42882/14586139.html\'
GET_HTML_WORD(url)
参考内容:
https://blog.csdn.net/c406495762/article/details/78123502
"""
相关文章: