【问题标题】:If i have to choose only one html scraping library for python, which should i choose如果我只需要为 python 选择一个 html 抓取库,我应该选择哪个
【发布时间】:2011-09-09 01:22:50
【问题描述】:

我需要做很多 html 解析/抓取/搜索引擎/抓取。

目前有很多库,如 Scrapy、Beautiful Soup、lxml、lxml2 requests、pyquery。

现在我不想尝试每一个然后再决定。基本上我想跟着一个,然后详细研究,然后经常使用它。

那么我应该使用哪个库来执行上述所有功能。即使对于 diff 问题可能有不同的解决方案。但我想要一个可以做所有事情的图书馆,即使编码需要时间但应该是可能的

是否可以在 lxml 中进行索引? PyQuery 与 lxml 相同还是不同?

【问题讨论】:

标签: python parsing search web-crawler


【解决方案1】:

我正在使用 Beautiful Soup,对此我非常满意。到目前为止,它满足了我所有的抓取需求。两个主要好处:

  • 它非常擅长处理不完美的 HTML。由于浏览器相当松散,许多 HTML 文档并非 100% 格式正确
  • 除了高级访问 API 之外,它还具有低级 API,如果不直接提供某些特定的抓取需求,它可以扩展

【讨论】:

  • 感谢 ELI,也感谢我的索引和搜索是漂亮的肥皂足够了
【解决方案2】:

由于许多 HTML 文档的格式不正确,而是一堆标签(有时甚至没有正确嵌套),因此您可能希望使用 BeautifulSoup 而不是基于 xml 的解析器之一。

【讨论】:

    猜你喜欢
    • 2014-04-17
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2012-11-11
    • 2010-10-24
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多