'gbk' code can't decode byte ...

原因:

文章中包含有‘gbk’或‘utf-8’无法编码的字符

解决:

一般编程语言在做decode时,都可以设置‘ignore’,设置一下即可

事件完整描述

本人想爬取小说网站的小说文本,但发现爬取结果为乱码
爬取小说网站时遇到的问题
于是用乱码在线恢复工具测试,如下图所示
爬取小说网站时遇到的问题
很明显,原来编码是GBK,现编码为iso-8859-1

所以需要先按ios-8859-1 encode 一下,再用GBK decode 一下,
但是decode时会出现“‘gbk’ code can’t decode byte …”这类问题,
这时只需要设置一下ignore就行,如下图
爬取小说网站时遇到的问题

相关文章:

  • 2021-12-22
  • 2022-12-23
  • 2022-12-23
  • 2022-12-23
  • 2021-11-14
  • 2021-05-24
  • 2018-06-14
  • 2021-04-15
猜你喜欢
  • 2021-09-14
  • 2022-12-23
  • 2021-11-14
  • 2021-08-30
  • 2022-12-23
  • 2021-06-14
  • 2022-01-01
相关资源
相似解决方案