Python3 网络爬虫 02 爬取文字·元尊小说

Python3 网络爬虫 02 <爬取文字·元尊小说>
@ 我的老师：Jack Cui

PS：我是通过看 Jack Cui 老师的文章学习的爬虫，也为我之后的爬虫打开了大门。

通常我们学习爬虫，都感觉是一个很难的事儿。但实际不然。爬虫无非就是要爬取四样有用的东西！

文字	图片	音乐	视频

那么这一节，我们就要去网络上下载一篇小说。即 文字 的爬取。

2.1.1 爬虫基本步骤

① URL
URL：https://www.yingsx.com/

② 发送请求

我们需要先明确如何发起 HTTP 请求，获取到数据。而暂时我们能够接触到的请求类型就是 GET (即通过显露的 URL 和相关参数来进行目的资源和目的数据的直接获取)

③ 解析数据 <今天的重点>

当我们访问了 目的资源 后，我们就可以拿到源代码，在这个源代码里。我们就能提取出我们想要的数据。

④ 保存数据

将我们想要的数据保存下来，保存到文件 中。是我们刚接触爬虫最常用的手段。这样我们在用到某些数据的时候，通过 文件的读取 即可。

解析数据有很多种方式：

① 字符串的解析 （通过自身的逻辑经验，代码能力，可以配合一些原生态的字符串方法来实现目的数据的提取）【难度： ⭐⭐⭐⭐ 】

② 正则表达式 （正则表达式大家应该都知道，它通常用来匹配相应的字符串。）若不知道的同学，可以点击这篇文章学习一下：< 程序员必备知识 01 正则表达式 >

③ 解析数据的模块 （虽然模块千千多！但这里建议大家使用 xpath、BeautifulSoup 这两者）+ re 正则模块，就可以很好的起到解析数据的效果。【难度： ⭐⭐ 】

2.1.2 Beautiful Soup

① 安装 Beautiful Soup

pip install beautifulsoup4

Beautiful Soup 官方中文文档
Python3 网络爬虫 02 <爬取文字·元尊小说>

PS：这里建议大家跟着我的教程走，慢慢找感觉，你会发现学习编程，没有什么比直接敲代码实践来得轻松，来得快了。

② 安装 lxml (以 lxml 方式来进行解析)

pip install lxml

Python3 网络爬虫 02 <爬取文字·元尊小说>

我们先来看下这个 URL：https://www.yingsx.com/0_100/

Python3 网络爬虫 02 <爬取文字·元尊小说>
右键检查，你会在上面的工具栏里，看到一个小鼠标，点击这个小鼠标，再对你感兴趣的数据进行点击。你会发现它自动的将该数据在源代码中的位置跳转显现了出来。

Python3 网络爬虫 02 <爬取文字·元尊小说>

而这张图，我们又可以知道。我们每一章节都有一个 URL。

这些 URL 都在 描述列表or自定义列表 的 <dd> URL <\dd> 标签中。

那么我们就先教大家利用 Beatiful Soup 模块来进行这些 URL 的爬取。

2.2.2 爬取每一章的 URL

① 先来看下我们最基本的源代码是否能爬取成功。

import requests

# get 方式访问 URL
req = requests.request(method="GET",url = "https://www.yingsx.com/0_100/")
# 编码调节为 UTF-8
req.encoding = 'utf-8'

print(req.text)

Python3 网络爬虫 02 <爬取文字·元尊小说>

② 利用 BeautifulSoup 进行 lxml 的解析。

--> 并通过 bs.find() 先找到 list 这个 div 大框，因为在它的内部才有那些个 dd

--> 再根据获取到 list div 元素，find_all('dt')[1] 找到第二个 dt 标签，因为我们可以清楚的看到，真正的所有 URL 都在第二个标签的后面。

--> 然后我们让 dt = find_all('dt')[1] 再 dt.find_all_next('dd') 就可以获取到之后的所有 dd 标签了。

--> 最后我们再根据每个 dd 来 find('a') 里面的每个 a 标签。
Python3 网络爬虫 02 <爬取文字·元尊小说>

import requests
from bs4 import BeautifulSoup

# get 方式访问 URL
URL = "https://www.yingsx.com/0_100/"
req = requests.request(method="GET",url=URL)
# 编码调节为 UTF-8
req.encoding = 'utf-8'
#print(html)
html = req.text
# 以lxml 方式进行解析
bs = BeautifulSoup(html,'lxml')

# 我们要获取的标签是 div，而这个 div 的 标识 是 id = 'list'
list = bs.find("div",)
# 通过 这个 div 获取到 内部的 第二个 dt
dt = list.find_all('dt')[1]

# a 标签 列表
aList = []
# url 列表
urlList = []
# name 文章名 列表
nameList = []

# dt.find_all_next('dd') 找到 第二个 dt 标签后 所有的 dd 返回一个 列表
for dd in dt.find_all_next('dd'):
    # 获取每个 dd 标签 内部的 a 标签
    aList.append(dd.find('a'))
    # 获取每个 a 标签 的 href 属性值，即 每一章 的 url
    urlList.append('https://www.yingsx.com'+ dd.find('a').get('href'))
    # 获取每个 a 标签 的 内容，即 每一章 的 标题名
    nameList.append(dd.find('a').text)

for url in urlList:
    print(url)

Python3 网络爬虫 02 <爬取文字·元尊小说>

BeautifulSoup(待分析的字符串源码,分析的格式or方式) 提供一个待分析的字符串，和分析的格式或方式，我们就会得到一个 bs对象。该对象的数据结构是一棵树，当然我们也不需进行细节的刨析。我们只要知道我们拿到这个对象，就相当于拿到了你提供的源代码的解析器。

bs.find(元素标签的名称,定位标识) 我们可以通过某些定位标识，比如它的独有属性 id ，或者 class 等来确认它是哪一个元素。

bs.find_all(元素标签的名称,定位的标识) 它是在定位标识 ok 的情况下，当然一般这个方法不会写定位标识。它会把所有符合的标签，都获取出来，并且存储到一个列表里。

dt.find_all_next(元素标签的名称,定位的标识) 它是在当前这个元素的基础上，往下再去探索所有的符合标识的标签。

元素标签.text 能够直接获取到标签内写的大白话文字。比如我们这次获取到的就是每一章的名字！

元素标签.get('属性名') 通过属性名获取到该元素对应的属性值。

2.2.2 爬取每一章的小说内容

接下来，我们就要对每一个文章的页面内容和源代码进行分析。

Python3 网络爬虫 02 <爬取文字·元尊小说>

我们会发现呢，每一章的内容其实都在 <div ></div> 标签里。

所以我们同理，依靠上面的步骤和教程。可以很轻松的得到这个内容。

但是问题来了

① 我们获取到的内容，有      这个特殊标识符，在 html 里面，代表空格。但是我们如果是字符串的话。空格就是空格呀 ~ ~ 哪还有这个 &nbsp 所以我们要把它替换为空格

content = content.text.strip().split('\xa0' * 4,' ')

其实上面这行代码是一个简化版。看下面的代码就知道了！

content = content.text.split('\xa0' * 4)
for i,x in enumerate(content):
	content[i] = x .strip()

PS：已有网友提醒，其实没必要进行替换，读取出来后，就是四个空格。哈哈 ~ 我当时写的很急促。这个代码…… 大意了！没闪 ~

Python3 网络爬虫 02 <爬取文字·元尊小说>

② 我们肯定是要写到文件里的，要不然我们爬虫的意义何在。

用最 python 自带的，也是最简单的文件操作即可解决该问题 ……

我们先根据我们的思路写一章看看吧！！！

import requests
from bs4 import BeautifulSoup
import os

# get 方式访问 URL
URL = "https://www.yingsx.com/0_100/"
req = requests.request(method="GET",url=URL)
# 编码调节为 UTF-8
req.encoding = 'utf-8'
#print(html)
html = req.text
# 以lxml 方式进行解析
bs = BeautifulSoup(html,'lxml')

# 我们要获取的标签是 div，而这个 div 的 标识 是 id = 'list'
list = bs.find("div",)
# 通过 这个 div 获取到 内部的 第二个 dt
dt = list.find_all('dt')[1]

# a 标签 列表
aList = []
# url 列表
urlList = []
# name 文章名 列表
nameList = []

# dt.find_all_next('dd') 找到 第二个 dt 标签后 所有的 dd 返回一个 列表
for dd in dt.find_all_next('dd'):
    # 获取每个 dd 标签 内部的 a 标签
    aList.append(dd.find('a'))
    # 获取每个 a 标签 的 href 属性值，即 每一章 的 url
    urlList.append('https://www.yingsx.com'+ dd.find('a').get('href'))
    # 获取每个 a 标签 的 内容，即 每一章 的 标题名
    nameList.append(dd.find('a').text + '.txt')

os.mkdir('元尊')

for i,url in enumerate(urlList):
    req = requests.request(method="GET",url = url)
    req.encoding = 'utf-8'
    html = req.text
    bs = BeautifulSoup(html,'lxml')

    # 找到 content div 标签
    content = bs.find("div",)
    content = content.text.strip().split('\xa0' * 4)

    f = open('元尊\\'+ nameList[i], 'w')
    for str in content:
        f.write(str)
    f.close()
    break

此时我们又会犯一个细节的错误，编码问题！我们知道我们这个是中文的小说。所以写入文件的时候，肯定编码要为 utf-8 呀！

Python3 网络爬虫 02 <爬取文字·元尊小说>

2.3.1 tqdm 进度条模块和成品代码

为了美观，我们最后还是决定要加一个下载的进度条。

这里推荐大家用 tqdm

Python3 网络爬虫 02 <爬取文字·元尊小说>

-------------------------------------------------成品代码---------------------------------------------------

import requests
from bs4 import BeautifulSoup
import os
from tqdm import tqdm

# get 方式访问 URL
URL = "https://www.yingsx.com/0_100/"
req = requests.request(method="GET",url=URL)
# 编码调节为 UTF-8
req.encoding = 'utf-8'
#print(html)
html = req.text
# 以lxml 方式进行解析
bs = BeautifulSoup(html,'lxml')

# 我们要获取的标签是 div，而这个 div 的 标识 是 id = 'list'
list = bs.find("div",)
# 通过 这个 div 获取到 内部的 第二个 dt
dt = list.find_all('dt')[1]

# a 标签 列表
aList = []
# url 列表
urlList = []
# name 文章名 列表
nameList = []

# dt.find_all_next('dd') 找到 第二个 dt 标签后 所有的 dd 返回一个 列表
for dd in dt.find_all_next('dd'):
    # 获取每个 dd 标签 内部的 a 标签
    aList.append(dd.find('a'))
    # 获取每个 a 标签 的 href 属性值，即 每一章 的 url
    urlList.append('https://www.yingsx.com'+ dd.find('a').get('href'))
    # 获取每个 a 标签 的 内容，即 每一章 的 标题名
    nameList.append(dd.find('a').text + '.txt')

os.mkdir('元尊')

for i,url in enumerate(tqdm(urlList)):
    req = requests.request(method="GET",url = url)
    req.encoding = 'utf-8'
    html = req.text
    bs = BeautifulSoup(html,'lxml')

    # 找到 content div 标签
    content = bs.find("div",)
    content = content.text.strip().split('\xa0' * 4)

    f = open('元尊\\'+ nameList[i], 'w',encoding='utf-8')
    for str in content:
        f.write(str)
    f.close()

Python3 网络爬虫 02 <爬取文字·元尊小说>

宣传一波 <我自己尝试录制的从零开始学习 Python>

配套的 Python 教学视频

2.1.1 爬虫基本步骤

2.1.2 Beautiful Soup

2.2.2 爬取 每一章 的 URL

2.2.2 爬取 每一章 的 小说内容

2.3.1 tqdm 进度条模块 和 成品代码

宣传一波 <我自己尝试录制的 从零开始 学习 Python>

2.2.2 爬取每一章的 URL

2.2.2 爬取每一章的小说内容

2.3.1 tqdm 进度条模块和成品代码

宣传一波 <我自己尝试录制的从零开始学习 Python>