【发布时间】:2018-12-05 07:51:01
【问题描述】:
我有大约 600 个 XML 文档,必须对其进行解析以进行某些处理。但由于缺少标签,它们不是有效的 XML 文档。 他们应该具有的正确有效结构是-
<article xmlns:xlink="http://www.w3.org/1999/xlink">
<bdy>
.....
.....
.....
</bdy>
</article>
一个 XML 文档包含数百个这样的 <article>...</article> 块。但问题是某些此类块缺少关闭 </bdy> 或 </article> 标记,从而使它们可以使用 Python 模块解析,例如 - 'lxml'、'xml.dom'、'xml.etree.ElementTree '等。
此外,由于大约有 600 个此类文件,因此手动尝试修复它们似乎是不可行的。
关于如何正确处理它们的任何建议?
谢谢
“article.dtd”文件可以下载如下-
【问题讨论】:
标签: xml python-3.x xml-parsing