如果我只需要为 python 选择一个 html 抓取库，我应该选择哪个答案

【问题标题】：If i have to choose only one html scraping library for python, which should i choose如果我只需要为 python 选择一个 html 抓取库，我应该选择哪个
【发布时间】：2011-09-09 01:22:50
【问题描述】：

我需要做很多 html 解析/抓取/搜索引擎/抓取。

目前有很多库，如 Scrapy、Beautiful Soup、lxml、lxml2 requests、pyquery。

现在我不想尝试每一个然后再决定。基本上我想跟着一个，然后详细研究，然后经常使用它。

那么我应该使用哪个库来执行上述所有功能。即使对于 diff 问题可能有不同的解决方案。但我想要一个可以做所有事情的图书馆，即使编码需要时间但应该是可能的

是否可以在 lxml 中进行索引？ PyQuery 与 lxml 相同还是不同？

【问题讨论】：

stackoverflow.com/questions/419235/…

标签： python parsing search web-crawler

【解决方案1】：

我正在使用 Beautiful Soup，对此我非常满意。到目前为止，它满足了我所有的抓取需求。两个主要好处：

它非常擅长处理不完美的 HTML。由于浏览器相当松散，许多 HTML 文档并非 100% 格式正确
除了高级访问 API 之外，它还具有低级 API，如果不直接提供某些特定的抓取需求，它可以扩展

【讨论】：

感谢 ELI，也感谢我的索引和搜索是漂亮的肥皂足够了

【解决方案2】：

由于许多 HTML 文档的格式不正确，而是一堆标签（有时甚至没有正确嵌套），因此您可能希望使用 BeautifulSoup 而不是基于 xml 的解析器之一。

【讨论】：