在网站中,页面正常显示,但是查看源代码时,没有对应的信息,而是一些错误的信息。

  在源代码中,对应标签中的信息是错乱的,当爬虫请求时,代码响应回来的html源代码,根本无法直接采集下来,如下图。



字体映射反爬虫
  相应源代码:
字体映射反爬虫

呈现过程:

  俗话说“有因必有果”,代码的出现,也是线索开始。分析代码可以找到字体文件,代码标签中相应的信息,也是字体映射关系,

  将网页中对应字体下载下来,打开字体文件,可以分析代码,如下图。


字体映射反爬虫

反爬突破:

以下列举解决字体映射方式的三种方式:

  1. 对于字体不多的字体文件,有人喜欢通过将其截图下来,通过图片识别来解决。
  2. 通过源代码中提供的信息,与字体文件作对比,分析映射关系。
  3. 使用Python提供的库打开文件,根据字符编码,找到字形轮廓信息与基准字形轮廓信息对比,得出对比结果。
结合代码解决问题:
  1. 访问源代码;
  2. 采集对应标签信息;
  3. 下载对应字体文件;
  4. 分析字体映射关系;
  5. 使用代码实现映射关系。
练手与相关链接:

字体反爬1


字体反爬2

相关文章:

  • 2022-01-13
  • 2021-12-26
  • 2021-12-03
  • 2021-12-09
  • 2021-12-10
  • 2021-12-15
  • 2021-12-09
猜你喜欢
  • 2022-01-01
  • 2021-11-28
  • 2021-10-23
  • 2022-12-23
  • 2021-07-24
  • 2021-10-17
  • 2022-12-23
相关资源
相似解决方案