【发布时间】:2011-08-23 00:54:12
【问题描述】:
我有超过 5000 个网页,我想要所有这些网页的标题。在我的项目中,我正在使用这样的 BeautifulSoup html 解析器。
soup = BeautifulSoup(open(url).read())
soup('title')[0].string
但它需要很多时间。只是为了一个网页的标题,我正在阅读整个文件并构建解析树(我认为这是延迟的原因,如果我错了,请纠正我)。
在python中有没有其他简单的方法可以做到这一点。
【问题讨论】:
-
你试过lxml.html吗?它比 bs 快
标签: python html beautifulsoup