【发布时间】:2016-05-02 13:58:50
【问题描述】:
我最近一直在使用 Python,我想从给定的 xml 文件中提取信息。问题是信息存储得非常糟糕,采用这样的格式
<Content>
<tags>
....
</tags>
<![CDATA["string1"; "string2"; ....
]]>
</Content>
我不能在这里发布全部数据,因为它大约有 20.000 行。 我只想收到包含 ["string1", "string2", ...] 的列表,这是我迄今为止一直在使用的代码:
import xml.etree.ElementTree as ET
tree = ET.parse(xmlfile)
for node in tree.iter('Content'):
print (node.text)
但是我的输出没有。我怎样才能收到评论数据? (同样,我使用的是 Python)
【问题讨论】:
-
如果您只想要一行,请考虑打开文件并尝试使用字符串/正则表达式函数查找该行。
-
这不是一行,就像我说的我有大约 20000 行作为列表元素。
-
不过,请考虑使用文件打开和通读策略,因为对于一个巨大的 XML 文档,DOM 创建/解析/遍历可能很耗时。
标签: python xml parsing comments