在网站中,页面正常显示,但是查看源代码时,没有对应的信息,而是一些错误的信息。
在源代码中,对应标签中的信息是错乱的,当爬虫请求时,代码响应回来的html源代码,根本无法直接采集下来,如下图。
相应源代码:
呈现过程:
俗话说“有因必有果”,代码的出现,也是线索开始。分析代码可以找到字体文件,代码标签中相应的信息,也是字体映射关系,
将网页中对应字体下载下来,打开字体文件,可以分析代码,如下图。
反爬突破:
以下列举解决字体映射方式的三种方式:
- 对于字体不多的字体文件,有人喜欢通过将其截图下来,通过图片识别来解决。
- 通过源代码中提供的信息,与字体文件作对比,分析映射关系。
- 使用Python提供的库打开文件,根据字符编码,找到字形轮廓信息与基准字形轮廓信息对比,得出对比结果。
结合代码解决问题:
- 访问源代码;
- 采集对应标签信息;
- 下载对应字体文件;
- 分析字体映射关系;
- 使用代码实现映射关系。