【发布时间】:2011-06-26 13:20:35
【问题描述】:
在开发网络爬虫时,我遇到了这个奇怪的事件;以下是网页服务器为http://nexgen.ae返回的页面内容的sn-p:
< ! D O C T Y P E H T M L P U B L I C " - / / W 3 C / / D T D H T M L 4 . 0 T r a n s i t i o n a l / / E N " >
< H T M L > < H E A D > < T I T L E > N e x G e n T e c h n o l o g i e s L L C | F i n g e r p r i n t T i m e A t t e n d a n c e M a n a g e m e n t S y s t e m | A c c e s s C o n t r o l M a n a g e m e n t S y s t e m | F a c e R e c o g n i t i o n | D o o r A c c e s s C o n t r o l | E m p l o y e e s A t t e n d a n c e | S o l u t i o n P r o v i d e r | N e t w o r k S t r u c t u e d C a b l i n g | D u b a i | U A E ) < / T I T L E >
如您所见,Web 服务器似乎在原始 HTML 源代码中的每个其他字符之后插入了一个空格字符。我在 Firefox 中使用“页面源”检查了 HTML 源,那里没有多余的空格。我还检查了同一网站的其他网页,并且我正在为这些网页获取正确的 HTML 文件。到目前为止,问题似乎只发生在通过网络爬虫访问此网站的默认页面时。
我注意到 html 文件最后包含“google 优化器跟踪脚本”。我想知道这个问题是否与此有关......
或者这只是网站管理员让网络爬虫远离的方式吗?如果是这种情况,robots.txt 文件就可以了!
【问题讨论】:
标签: tracking httpresponse web-crawler optimization