原因:
文章中包含有‘gbk’或‘utf-8’无法编码的字符
解决:
一般编程语言在做decode时,都可以设置‘ignore’,设置一下即可
事件完整描述
本人想爬取小说网站的小说文本,但发现爬取结果为乱码
于是用乱码在线恢复工具测试,如下图所示
很明显,原来编码是GBK,现编码为iso-8859-1
所以需要先按ios-8859-1 encode 一下,再用GBK decode 一下,
但是decode时会出现“‘gbk’ code can’t decode byte …”这类问题,
这时只需要设置一下ignore就行,如下图