BeautifulSoup 获取 innerhtml 数据答案

【问题标题】：BeautifulSoup get innerhtml dataBeautifulSoup 获取 innerhtml 数据
【发布时间】：2010-07-08 08:28:17
【问题描述】：

我正在尝试从网站读取数据。我可以看到我需要的值，但该值没有出现在下载的 html 代码中（使用 urllib2）。该值由某个 js 文件创建，并作为该 id 的 innerhtml 嵌入到网页中。 PS：如何提取？原始源代码不能像浏览器那样渲染js！

【问题讨论】：

【解决方案1】：

另一种获取数据的方法是让浏览器使用 Selenium 完成所有工作并读取呈现的 html。有点慢，但肯定有效。

您可以在此处找到将 Selenium 与 Python 结合使用的入门指南： http://jimmyg.org/blog/2009/getting-started-with-selenium-and-python.html

【讨论】：

【解决方案2】：

您有两个选择：让浏览器保存 DOM（这包括脚本所做的所有更改）或使用 JavaScript 引擎执行嵌入的脚本。

对于后一种方法，尝试使用基于 Java 的引擎，例如 Rhino，并使用 env.js 模拟浏览器。

【讨论】：