【发布时间】:2010-04-26 21:37:51
【问题描述】:
我有一个来自 Windows 提供商的 700MB XML 文件。
正如人们所料,行尾是 '\r\n'(或 vi 中的 ^M)。除了让供应商发送'\n'之外,处理这种情况的最有效方法是什么:-)
- 使用os.linesep
- 使用rstrip()(需要打开文件……这似乎很疯狂)
- 在我的 Mac Snow Leopard 上使用 Universal newline support 不是标准 - 所以不是一个选项。
我对任何需要 Python 2.6+ 的东西都持开放态度,但它需要在 Snow Leopard 和 Ubuntu 9.10 上运行,并且外部要求最低。我不介意小的性能损失,但我正在寻找标准的最佳方法来处理这个问题。
----编辑----
行尾位于标签描述符的中间,否则不会有这样的问题。我知道这是不好的形式,他们不应该把它发给我,但这是我拥有文件的方式,而供应商大多不称职。
【问题讨论】:
-
那么你怎么知道是否需要空格呢?你当然不能只是去删除所有的空白。例如。考虑到这个问题,你会如何折叠
<xxx yyy zzz>?