在python中浏览/解析html页面答案

【问题标题】：Browsing/parsing html pages in python在python中浏览/解析html页面
【发布时间】：2014-06-01 21:40:09
【问题描述】：

我正在尝试收集一些我需要的插件，以便与 html 页面进行交互。我需要的范围从简单的浏览和与网页的按钮或链接交互（如“在此文本框中写入一些文本并按下此按钮”）到解析 html 页面并将自定义获取/发布消息发送到服务器。我正在使用 Python 3，到目前为止，我有 Requests 用于简单的网页加载、自定义获取和发布消息， BeautifulSoup 用于解析 HTML 树，我正在考虑尝试 Mechanize 以进行简单的网页交互。

是否还有其他库与我目前使用的 3 个类似？是否存在某种聚集所有 Python 库的地方？因为我有时会发现很难找到我要找的东西。

【问题讨论】：

有用的python库：wiki.python.org/moin/UsefulModules

标签： python html parsing browser web-scraping

【解决方案1】：

用于网络抓取的工具/库集实际上取决于多个因素：目的、您要抓取的页面的复杂性、速度、限制等。

以下是当今 Python 网络抓取世界中流行的工具列表：

还有HTML 解析器，这些是最受欢迎的：

Scrapy 可能是碰巧在 Python 中为网络抓取创建的最好的东西。它确实是一个网络抓取框架，使其变得简单明了，Scrapy 提供了您可以想象的网络抓取的一切。

注意：如果加载时涉及到很多 AJAX 和 js 的东西，形成页面你需要一个真正的浏览器来处理它。这就是selenium 提供帮助的地方——它使用了一个真正的浏览器，允许您在WebDriver 的帮助下与之交互。

另见：

希望对您有所帮助。

【讨论】：

@Serban 不，忘了机械化 :)