Web 服务器返回的奇怪的 html 文件答案

【问题标题】：strange html file returned by web serverWeb 服务器返回的奇怪的 html 文件
【发布时间】：2011-06-26 13:20:35
【问题描述】：

在开发网络爬虫时，我遇到了这个奇怪的事件；以下是网页服务器为http://nexgen.ae返回的页面内容的sn-p：

< ! D O C T Y P E   H T M L   P U B L I C   " - / / W 3 C / / D T D   H T M L   4 . 0   T r a n s i t i o n a l / / E N " > 

 < H T M L > < H E A D > < T I T L E > N e x G e n   T e c h n o l o g i e s   L L C |   F i n g e r p r i n t   T i m e   A t t e n d a n c e   M a n a g e m e n t   S y s t e m |   A c c e s s   C o n t r o l   M a n a g e m e n t   S y s t e m |   F a c e   R e c o g n i t i o n |   D o o r   A c c e s s   C o n t r o l |   E m p l o y e e s   A t t e n d a n c e |   S o l u t i o n   P r o v i d e r |   N e t w o r k   S t r u c t u e d   C a b l i n g | D u b a i |   U A E ) < / T I T L E >

如您所见，Web 服务器似乎在原始 HTML 源代码中的每个其他字符之后插入了一个空格字符。我在 Firefox 中使用“页面源”检查了 HTML 源，那里没有多余的空格。我还检查了同一网站的其他网页，并且我正在为这些网页获取正确的 HTML 文件。到目前为止，问题似乎只发生在通过网络爬虫访问此网站的默认页面时。

我注意到 html 文件最后包含“google 优化器跟踪脚本”。我想知道这个问题是否与此有关......

或者这只是网站管理员让网络爬虫远离的方式吗？如果是这种情况，robots.txt 文件就可以了！

【问题讨论】：

标签： tracking httpresponse web-crawler optimization

【解决方案1】：

那些可能不是空格，它们是空字节。该页面以 UTF-16 编码（每个字符 2 个字节的倍数，最少 2 个），并且由于该网站未在其 HTTP 标头中正确指定其编码，您试图将其读取为 ASCII（每个字符 1 个字节）或可能是 UTF-8（每个字符 1 个字节或更多）。

要明白我的意思，请在浏览器中打开它并更改编码（在浏览器菜单中的某处，可能需要右键单击页面）并选择 UTF-16LE 选项。

【讨论】：