【问题标题】:Trying to extract xml element using python 2.7尝试使用 python 2.7 提取 xml 元素
【发布时间】:2013-02-26 23:53:19
【问题描述】:

我正在尝试提取 xml 文件中序列下的名称元素。我在顶部粘贴了一个示例 xml 来说明。有了这个,我想通过指导从 01 Interview_been 中获得文本并将其写入文件。 xml 中有多个序列标签,我试图弄清楚如何通过它并提取它。我试图弄清楚如何使用 xml.etree 和 xml.dom.minidom 但我似乎无法将我的大脑包裹在它周围。我能够从序列标签中获取所有 id 值,但不能从名称元素中获取。我在 xml 之前粘贴我的代码。

from xml.etree import ElementTree


file = open("xmldump.txt", "r")
filedata = file.read()
file.close()

with open('test.xml', 'rt') as f:
    tree = ElementTree.parse(f)

for node in tree.iter('name'):
    sequenceid = node.attrib.get('name')
    print '  %s' % (sequenceid)
    newLine = sequenceid + "\n"
    file = open("xmldump.txt", "w")
    file.write(newLine)
    file.close()

这是 XML:

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE xmeml>
<xmeml version="5">
<bin>
<uuid>0F5D72FA-54E4-4DE8-81D7-CC33F5C43836</uuid>
<updatebehavior>add</updatebehavior>
<name>Logged</name>
<children>
    <sequence id="01 Interview_been successful through mentorship">
        <uuid>12FB944D-83EA-4527-9A54-2130A42E3A06</uuid>
        <updatebehavior>add</updatebehavior>
        <name>01 Interview_been successful through mentorship</name>
        <duration>1195</duration>
        <rate>
            <ntsc>TRUE</ntsc>
            <timebase>24</timebase>
        </rate>
        <timecode>

【问题讨论】:

  • 这不是一个有效的 XML 文档。 timecodesequence等节点是打开的,从不关闭。如果您实际上是在尝试解析片段,则不能为此使用 DOM 解析器(如 minidomElementTree.parse);您需要一个迭代解析器(如ElementTree.iterparse)或一个 SAX 解析器。如果您要解析真实文档,请提供真实文档。
  • 另外,您正在尝试获取每个 name 节点的 name 属性。您的代码会这样做,但在您的示例 XML 中,name 节点都没有 name 属性,或者根本没有任何属性。您是否尝试获取 name 节点的内部文本?或者是什么?你为什么要打电话给sequenceid
  • 他确实说过“我已经粘贴在示例 xml 的顶部来说明”。我认为这只是部分,他的文件可能是有效的 xml
  • @entropy:提供sscce 是 OP 的责任,而不是猜测他的意思。也许那个后跟 5 个结束标签的样本说明了他的问题,但是我们怎么知道,而不是猜测然后希望呢?
  • @abarnert 我完全同意这是他的责任。我只是指出一个事实,他说这是“样本的顶部”,这可能意味着它是一个部分文件,他选择了一个不幸的地方来剪切它。

标签: python xml-parsing


【解决方案1】:

好吧,我不确定你想要“id”属性还是名称标签(您的代码令人困惑,它试图从“sequence”标签中提取“name”属性,但该标签只有“id”属性)。下面是提取两者的代码,应该可以帮助您开始了解 ElementTree 的工作原理

from xml.etree import ElementTree

with open('test.xml', 'rt') as f:
    tree = ElementTree.parse(f)

for node in tree.iter('sequence'):
    sequenceid = node.attrib.get('id')
    name = node.findtext('name')

【讨论】:

  • 非常感谢。你解决了我的问题并帮助我完成了我的程序。我引用的 xml 是 Final Cut Pro 的一个巨大导出,所以除了显示我想要抓取的标签之外,我害怕发布任何内容。再次感谢您的善意和理解。
  • 我很高兴 :-) 您应该将答案标记为已接受。只需按下它旁边的复选标记。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 2012-03-11
  • 1970-01-01
  • 2022-01-16
  • 1970-01-01
  • 2017-03-18
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多