【问题标题】:BeautifulSoup get innerhtml dataBeautifulSoup 获取 innerhtml 数据
【发布时间】:2010-07-08 08:28:17
【问题描述】:

我正在尝试从网站读取数据。我可以看到我需要的值,但该值没有出现在下载的 html 代码中(使用 urllib2)。该值由某个 js 文件创建,并作为该 id 的 innerhtml 嵌入到网页中。 PS:如何提取?原始源代码不能像浏览器那样渲染js!

【问题讨论】:

    标签: javascript python urllib2 beautifulsoup innerhtml


    【解决方案1】:

    另一种获取数据的方法是让浏览器使用 Selenium 完成所有工作并读取呈现的 html。有点慢,但肯定有效。

    您可以在此处找到将 Selenium 与 Python 结合使用的入门指南: http://jimmyg.org/blog/2009/getting-started-with-selenium-and-python.html

    【讨论】:

      【解决方案2】:

      您有两个选择:让浏览器保存 DOM(这包括脚本所做的所有更改)或使用 JavaScript 引擎执行嵌入的脚本。

      对于后一种方法,尝试使用基于 Java 的引擎,例如 Rhino,并使用 env.js 模拟浏览器。

      【讨论】:

      • 如何自动保存浏览器的DOM?感谢您提供模拟器方法,但您知道这样做的 Python 方法吗?
      • 按照 mamoo 的建议尝试 Selenium。
      猜你喜欢
      • 2020-09-14
      • 1970-01-01
      • 1970-01-01
      • 2018-06-19
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2011-10-20
      相关资源
      最近更新 更多