【问题标题】:Problems scraping pages with JavaScript function in python在 python 中使用 JavaScript 函数抓取页面的问题
【发布时间】:2012-12-12 02:11:38
【问题描述】:

我遇到了一个 python 问题,看。

我必须废弃一个有 JS 函数的页面,但这不是真正的问题,真正的问题是我需要的信息是由函数提供的。所以我需要运行该函数以确保它会构建我需要的 HTML 代码,然后处理它以获得我想要的..

只是为了确保我清楚,JS函数构建HTML代码,但是当我废弃它时,它没有获得HTML buid,它只是返回JS函数......

我在抓取过程中使用 mechanize 和 beautifulSoup.. 有谁知道我必须做什么来模拟 JS 函数来获取我需要的 HTML 代码?

提前致谢。

【问题讨论】:

  • 我会弄清楚 JS 函数是如何构建 HTML 的。 Mechanize 不执行 JS,所以不会有太大帮助。

标签: javascript python beautifulsoup mechanize


【解决方案1】:

您需要一个支持 javascript 的报废框架。 Selenium 就是其中之一,与 BeautifulSoup 一起使用我得到了很好的结果。

如果您打算使用Selenium with Mozilla Firefox,您可能需要检查PyVirtualDisplay

【讨论】:

    猜你喜欢
    • 2022-11-17
    • 2011-12-24
    相关资源
    最近更新 更多