ColdHan

python 爬虫中文乱码

问题描述:

当我们直接爬虫国内网站时,中文会出现乱码

 

原因就是python 内部编码格式与我们爬虫的网站不一致。因为此时我们需要去目标网站先去看他的编码格式,如:

<meta http-equiv="Content-Type" content="text/html; charset=gb2312">

 

那么我们在python 解析时也要加上对应编码即可

rHtml = requests.get(link, headers=headers, timeout=20)
print(rHtml.status_code)
if (rHtml.status_code == 200):
rHtml.encoding = \'gb2312\'
d = pq(rHtml.text)
print(d)

 

分类:

技术点:

相关文章:

  • 2018-09-23
  • 2021-12-25
  • 2021-12-25
  • 2021-12-25
  • 2021-12-25
  • 2020-02-21
  • 2021-08-27
猜你喜欢
  • 2021-12-20
  • 2021-12-25
  • 2021-12-25
  • 2021-12-25
  • 2021-12-25
  • 2021-07-25
  • 2021-12-25
相关资源
相似解决方案