揭秘爬虫加密乱码

以下代码可以得到字体库

def make_font_file(base64_string: str):
    bin_data = base64.decodebytes(base64_string.encode())
    return bin_data

解析乱码

1.在pycharm上生成需要的16进制对应的数

'龒龥麣麣'.encode("unicode-escape")
b'\\u9f92\\u9fa5\\u9ea3\\u9ea3'
'餼驋龒龒'.encode("unicode-escape")
b'\\u993c\\u9a4b\\u9f92\\u9f92'

2.将网页原代码里需要转的乱码复制到"https://www.motobit.com/util/base64-decoder-encoder.asp"或者用第一段代码生成字体库
揭秘爬虫加密乱码
生成.woff或.ttf文件

3.在fontcreater软件上打开刚存的文件就可生成对应的码表
4.将码表的对应关系用字典的形式显示。

如果每个页面的码表对应方式不一样，利用OCR图片识别的方法的解码方式

from PIL import Image,ImageDraw,ImageFont
import os
text = "餼驋龒龒"
im = Image.new("RGB",(80,50),(255,255,255))
dr = ImageDraw.Draw(im)
font = ImageFont.truetype("pixelEn.woff",18)
dr.text((10,5),text,font=font,fill="#000000")
im.show()
im.save("t.png")