【问题标题】:Webscraping using Selenium and Python: Capture JSON body使用 Selenium 和 Python 进行网页抓取:捕获 JSON 正文
【发布时间】:2013-03-24 09:06:49
【问题描述】:

我正在尝试抓取在后台运行一些 AJAX 的网页。使用 python 和 Selenium,我已经完成了加载网页、将数据输入表单、单击提交并等待。在这一点上,我正在尝试捕获返回的 JSON 格式的数据,但是 this 文章建议将 JSON 正文取出是不可能的。我试图自己查看 Selenium 代码以使其返回所有内容,但我运气不佳。有没有人遇到过类似的问题并有解决方法的建议?我不必使用硒(或python) 谢谢!

【问题讨论】:

    标签: python ajax json selenium web-scraping


    【解决方案1】:

    在这种情况下,您应该能够直接获取 JSON。 JSON 位于 here。您可以使用 firefox 和 firebug 来检查 XHR 请求以找到它。

    【讨论】:

      【解决方案2】:

      我通过查看网站正在执行的 ajax 调用来做到这一点(在源代码中)。这通常是 POST(有时是 GET)。然后我 cURL (PHP) 或 urllib2 (Python) 该 URL + 发送所需的数据。这将返回正文,包括我的 JSON。

      【讨论】:

      • 我很乐意这样做,但该网站使用 JQuery,所以这就是我首先使用 Selenium 的原因。你遇到过这样的场景吗?
      • 这很容易做到。如果需要,您可以注入一些 javascript 来公开 JSON。但是,这是根据具体情况而定的。如果您可以发布您的网址,那么进一步发表评论会更容易。
      • @user1609452 没问题!网址如下。我正在尝试提取日期和价格。如您所见,页面加载了一段时间。使用 Firebug,我可以看到 JSON 加载,这就是我要捕获的内容。我在想这不应该太难做...celebritycruises.com/search/…
      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2021-05-08
      • 2018-07-20
      • 2020-03-13
      • 1970-01-01
      相关资源
      最近更新 更多