爬取小说网站时遇到的问题

'gbk' code can't decode byte ...

原因：
解决：
事件完整描述

原因：

文章中包含有‘gbk’或‘utf-8’无法编码的字符

解决：

一般编程语言在做decode时，都可以设置‘ignore’，设置一下即可

事件完整描述

本人想爬取小说网站的小说文本，但发现爬取结果为乱码
爬取小说网站时遇到的问题
于是用乱码在线恢复工具测试，如下图所示

很明显，原来编码是GBK，现编码为iso-8859-1

所以需要先按ios-8859-1 encode 一下，再用GBK decode 一下，
但是decode时会出现“‘gbk’ code can’t decode byte …”这类问题，
这时只需要设置一下ignore就行，如下图
爬取小说网站时遇到的问题

相关文章：

2021-12-22
2022-12-23
2022-12-23
2022-12-23
2021-11-14
2021-05-24
2018-06-14
2021-04-15

猜你喜欢

2021-09-14
2022-12-23
2021-11-14
2021-08-30
2022-12-23
2021-06-14
2022-01-01

相关资源

下载 2021-07-01
下载 2021-06-06
下载 2023-03-13

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode