【问题标题】:Browsing/parsing html pages in python在python中浏览/解析html页面
【发布时间】:2014-06-01 21:40:09
【问题描述】:

我正在尝试收集一些我需要的插件,以便与 html 页面进行交互。我需要的范围从简单的浏览和与网页的按钮或链接交互(如“在此文本框中写入一些文本并按下此按钮”)到解析 html 页面并将自定义获取/发布消息发送到服务器。 我正在使用 Python 3,到目前为止,我有 Requests 用于简单的网页加载、自定义获取和发布消息, BeautifulSoup 用于解析 HTML 树,我正在考虑尝试 Mechanize 以进行简单的网页交互。

是否还有其他库与我目前使用的 3 个类似?是否存在某种聚集所有 Python 库的地方?因为我有时会发现很难找到我要找的东西。

【问题讨论】:

标签: python html parsing browser web-scraping


【解决方案1】:

用于网络抓取的工具/库集实际上取决于多个因素:目的、您要抓取的页面的复杂性、速度、限制等。

以下是当今 Python 网络抓取世界中流行的工具列表:

还有HTML 解析器,这些是最受欢迎的:

Scrapy 可能是碰巧在 Python 中为网络抓取创建的最好的东西。它确实是一个网络抓取框架,使其变得简单明了,Scrapy 提供了您可以想象的网络抓取的一切。

注意:如果加载时涉及到很多 AJAX 和 js 的东西,形成页面你需要一个真正的浏览器来处理它。这就是selenium 提供帮助的地方——它使用了一个真正的浏览器,允许您在WebDriver 的帮助下与之交互。

另见:

希望对您有所帮助。

【讨论】:

  • @Serban 不,忘了机械化 :)
猜你喜欢
  • 2012-12-11
  • 1970-01-01
  • 2023-04-01
  • 1970-01-01
  • 2012-09-27
  • 2013-04-16
  • 2023-03-10
  • 2012-01-06
  • 1970-01-01
相关资源
最近更新 更多