一、网页分析
1.列表页
网址:http://www.dianping.com/beijing/ch10
打开列表页:
可以发现点评中的数字除了111,另外两个用方框代替了,这种情况就是字体加密,需要获取字体文件,然后根据明文来替代对应的字体编码。
2.详情页
网址:http://www.dianping.com/shop/G42raZgZrwxB69Oj
打开详情页:
详情页也是和列表页一样的加密,不过用到的字体文件和列表页不一样。
3.评论页
网址:http://www.dianping.com/shop/G42raZgZrwxB69Oj/review_all
打开评论页:
从上图发现电话号码除了‘1’和‘-’后,其它数字都没看到。其它都是cc标签,标签包含class属性。这种属于svg映射反爬虫。这种需要找出对应的css样式和svg样式,根据x值,y值和字体大小去svg样式找到对应的明文。
二、采集结果
本文不方便透漏太多信息,有需求可以进群讨论。
本文到这里就结束了,本人才疏学浅,有写的不准确的地方望见谅,有兴趣的朋友可以找我讨论,q群:995811075