【发布时间】:2012-02-05 05:23:54
【问题描述】:
我希望加快解析维基百科的一部分,大约 5gb。现在我正在使用一个使用 pythons sax 接口的脚本,lxml 似乎是一个直接的加速解决方案。
但是,我对 lxml sax 文档有点困惑,因此任何指向简单示例的指针/链接都会有所帮助。这是我要转换的有问题的脚本,https://gist.github.com/1739351
【问题讨论】:
-
您可以尝试使用
etree.iterparse功能。我有一个脚本可以解析维基百科数据库转储并提取文章here。 -
从其他人那里读取代码总是有帮助的,分叉。谢谢。
标签: python xml sax lxml wikipedia