【发布时间】:2013-05-29 17:44:46
【问题描述】:
我正在尝试解析一些网页,例如:
http://www.imovirtual.com/imoveis/apartamentos/t0-t1-entrecampos-mobilado-lisboa/1038329/
http://www.imovirtual.com/imoveis/apartamentos/t2-quinta-do-romao-quarteira/1156717/
我正在使用 Nokogiri::HTML,第一个链接一切正常,但第二个链接只有垃圾,无法解析。
我尝试使用curl,结果是一样的。
这是第二个链接的结果示例:
��� DG;v�u�G{f�
��;?�@ː0t�Yw���`~�d��
f9����:�}P2k�㤷ϓ���togg���B�D�j���P�AS���cV���5h+�dp
可能是什么问题? 两个页面在浏览器中都可以很好地呈现,我在它们的 DOM 中找不到显着的差异。
注意:在第二个链接上使用wget 会导致文件不可读。
【问题讨论】:
标签: ruby curl web-scraping web-crawler nokogiri