【问题标题】:strange html file returned by web serverWeb 服务器返回的奇怪的 html 文件
【发布时间】:2011-06-26 13:20:35
【问题描述】:

在开发网络爬虫时,我遇到了这个奇怪的事件;以下是网页服务器为http://nexgen.ae返回的页面内容的sn-p:

< ! D O C T Y P E   H T M L   P U B L I C   " - / / W 3 C / / D T D   H T M L   4 . 0   T r a n s i t i o n a l / / E N " > 

 < H T M L > < H E A D > < T I T L E > N e x G e n   T e c h n o l o g i e s   L L C |   F i n g e r p r i n t   T i m e   A t t e n d a n c e   M a n a g e m e n t   S y s t e m |   A c c e s s   C o n t r o l   M a n a g e m e n t   S y s t e m |   F a c e   R e c o g n i t i o n |   D o o r   A c c e s s   C o n t r o l |   E m p l o y e e s   A t t e n d a n c e |   S o l u t i o n   P r o v i d e r |   N e t w o r k   S t r u c t u e d   C a b l i n g | D u b a i |   U A E ) < / T I T L E > 

如您所见,Web 服务器似乎在原始 HTML 源代码中的每个其他字符之后插入了一个空格字符。我在 Firefox 中使用“页面源”检查了 HTML 源,那里没有多余的空格。我还检查了同一网站的其他网页,并且我正在为这些网页获取正确的 HTML 文件。到目前为止,问题似乎只发生在通过网络爬虫访问此网站的默认页面时。

我注意到 html 文件最后包含“google 优化器跟踪脚本”。我想知道这个问题是否与此有关......

或者这只是网站管理员让网络爬虫远离的方式吗?如果是这种情况,robots.txt 文件就可以了!

【问题讨论】:

    标签: tracking httpresponse web-crawler optimization


    【解决方案1】:

    那些可能不是空格,它们是空字节。该页面以 UTF-16 编码(每个字符 2 个字节的倍数,最少 2 个),并且由于该网站未在其 HTTP 标头中正确指定其编码,您试图将其读取为 ASCII(每个字符 1 个字节)或可能是 UTF-8(每个字符 1 个字节或更多)。

    要明白我的意思,请在浏览器中打开它并更改编码(在浏览器菜单中的某处,可能需要右键单击页面)并选择 UTF-16LE 选项。

    【讨论】:

      猜你喜欢
      • 2012-04-23
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2011-06-03
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多