【发布时间】:2011-09-09 01:22:50
【问题描述】:
我需要做很多 html 解析/抓取/搜索引擎/抓取。
目前有很多库,如 Scrapy、Beautiful Soup、lxml、lxml2 requests、pyquery。
现在我不想尝试每一个然后再决定。基本上我想跟着一个,然后详细研究,然后经常使用它。
那么我应该使用哪个库来执行上述所有功能。即使对于 diff 问题可能有不同的解决方案。但我想要一个可以做所有事情的图书馆,即使编码需要时间但应该是可能的
是否可以在 lxml 中进行索引? PyQuery 与 lxml 相同还是不同?
【问题讨论】:
标签: python parsing search web-crawler