【问题标题】:python open web page and get source codepython打开网页并获取源代码
【发布时间】:2013-03-05 23:23:14
【问题描述】:

我们开发了一个基于 Web 的应用程序,具有用户登录等功能,并且我们开发了一个 python 应用程序,它必须在此页面上获取一些数据。

有什么方法可以让python和系统默认浏览器通信吗? 我们的主要目标是用系统浏览器打开一个网页,并从中获取 HTML 源代码?我们尝试使用python webbrowser,成功打开网页,但无法获取源代码,并尝试使用urllib2,在这种情况下,我认为我们必须使用系统默认浏览器的cookie等,我不想这样做,因为安全。

【问题讨论】:

  • 正确的方式一般是使用urllib2,确实支持cookies...

标签: python pyqt


【解决方案1】:

https://pypi.python.org/pypi/selenium

你可以尝试使用 Selenium,他是为了测试而做的,但没有什么能阻止你将它用于其他目的

【讨论】:

  • 有没有办法让 selenium 附加已经打开的浏览器?当我使用时,webdriver.Chrome() 或 webdriver.Firefox() 会打开新的。
【解决方案2】:

如果您的网站无需 Javascript 即可导航,那么您可以尝试Mechanizezope.testbrowser。这些工具提供了比 urllib2 更高级别的 API,让您可以执行诸如跟踪页面上的链接和填写 HTML 表单等操作。

这对于导航使用基于 cookie 的身份验证和 HTML 表单进行登录的站点很有帮助。

【讨论】:

  • 我们使用了很多 javascript,大部分是 jquery。
【解决方案3】:

看看nltk 模块——他们有一些用于查看网页和获取文本的实用程序。还有BeautifulSoup,更详细一点。我目前正在使用这两种方法来抓取网页以获取学习算法——它们是非常广泛使用的模块,所以这意味着你可以在这里找到很多提示 :)

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多