【发布时间】:2009-06-02 17:42:07
【问题描述】:
我正在寻找一种方法来提供 URL,并在其上运行 JavaScript 后获取网页的源代码。例如:
我有一个带有 . 在加载页面时,一些 JavaScript 会填充 div。 通过浏览器查看页面的源代码不会给出 div 中的信息。
据我所知,为了让浏览器渲染页面,div 必须已经填充了 (X|D)HTML,这意味着渲染后页面的源仍然只是嵌套标记,所以理论上应该有一个“最终”版本的页面源代码。
我考虑过使用 WebKit 或 Gecko 之类的渲染引擎,并以某种方式调整它们来执行此操作,但是这是一项相当大的任务,我真的不想复制已经完成的事情。有谁知道执行此任务的方法。
问候。
更新:我的目标是使用 Selenium(如已接受答案的 cmets 中所述)自动为几页执行此操作。我的项目是一个网络蜘蛛,根据设计,它需要定位多个页面,在这些页面中,我要访问的内容在 JavaScript 填充所有内容之前不可用。
【问题讨论】:
标签: javascript html rendering