lianliang

一、读取返回的页面数据

在浏览器打开的时候查看源代码,如果在头部信息中指定了UTF-8

那么再python代码中读取页面信息的时候,就需要指定读取的编码方式:

response.read().decode(\'utf-8\')

 

二、把中文数据写入到文件的时候

python默认的是按照ACSII的编码往外写,所以中文数据往外写肯定会出现乱码

那么再往外写入文件的时候需要对中文数据进行编码:

fout.write(\'<td>%s</td>\' %(data[\'title\'].encode(\'utf-8\')))

 

三、写入到HTML文件的时候

为了显示方便,把抓取下来的数据写入到HTML文件里面,在浏览中显示

在写入的时候,需要指定HTML文件的编码方式

如果没有指定默认的是UTF8无BOM编码,直接用浏览打开会产生乱码

所以需要在往外写的时候指定编码方式:

fout.write(\'<html><head><meta http-equiv="Content-Type" content="text/html;charset=UTF-8"/></head>\')

 

四、设置了以上编码之后还可能会报错,在加入以下代码

import sys
reload(sys)
sys.setdefaultencoding("utf-8")

分类:

技术点:

相关文章:

  • 2021-12-25
  • 2021-11-14
  • 2021-11-17
  • 2021-12-25
  • 2023-02-08
  • 2022-12-23
  • 2022-12-23
  • 2022-12-23
猜你喜欢
  • 2022-12-23
  • 2020-07-14
  • 2022-12-23
  • 2021-12-25
  • 2021-12-16
  • 2021-06-18
相关资源
相似解决方案