【发布时间】:2014-02-23 21:12:58
【问题描述】:
我有一个由文章分隔的巨大文本文件 (18Gb),每篇文章都有这样的标题:
<text id="1403" year="" url_source="http://www.adobe.de" error="0.008696">
问题是我应该为每篇文章有一个不同的id,但是有一些重复的,所以我需要做的是沿着文件查找id并从1开始连续重新枚举它们。我一直环顾四周,但我没有找到合适的解决方案,可能是因为我缺乏知识,我会感谢您的建议
【问题讨论】:
-
整个文件是 XML 吗?
-
内容是这样的
blah blah blah blah ..... 呜呜呜呜呜呜…… -
您能再给我们看一些您的文件吗?
-
听起来你有一个 XML 文件。使用迭代 XML 解析器; Python 有 ElementTree API 和 iterparse 方法。
-
对我来说是中文但我会找它,谢谢
标签: python perl shell text replace