【问题标题】:wget, curl, html parsers fail to get correct htmlwget、curl、html 解析器无法获取正确的 html
【发布时间】:2012-11-12 03:40:09
【问题描述】:

我正在尝试解析此链接

http://www.sears.com/search=play%20station?pageNum=1&viewType=list

如果我在浏览器中打开该网站,它会完美运行。但是,似乎没有一个解析器可以工作(尝试 jsoup)。另外,我尝试对url进行curl和wget,但输出也不正确。

我试图检查网站是否真的重定向(301、302),但显然没有。

有人知道我做错了什么吗?

【问题讨论】:

  • 我以为可能是用户代理,但似乎不是。
  • 一些网站似乎对不明请求设置了某种类型的拦截器。 Facebook 也有类似的东西。

标签: html parsing curl html-parsing wget


【解决方案1】:

【讨论】:

  • 它不起作用。我注意到了 javascript 重定向,但我认为这并不重要。如果你 curl -L that url 你会得到一些东西,但它是错误的数据。只检查表头:
  • 当我卷曲我发布的 URL 时,它工作正常。我只在您的原始 URL 上得到了明显错误的标题。
  • 可能是我的连接或 DNS。我要仔细检查。
  • @singpolyma 是正确的。对您显示的 URL 的初始响应是 200,它加载一个页面,该页面包含一个脚本,该脚本发出一个新请求,该请求返回实际内容。我在 Firefox/Fiddler 和 Firebug 以及 curl 下尝试过,得到了相同的结果。如果您得到不同的结果,则说明您的设置有问题。
猜你喜欢
  • 2019-07-28
  • 2019-03-01
  • 1970-01-01
  • 2020-11-26
  • 1970-01-01
  • 1970-01-01
  • 2014-11-15
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多