使用元素树解析 XML 文件答案

【问题标题】：Parsing an XML file using Element Tree使用元素树解析 XML 文件
【发布时间】：2011-06-11 00:04:17
【问题描述】：

我有大量的 .xml 文件（大约 70 个），我需要从中提取一些坐标。显然，最好的方法是使用元素树解析 xml 文件。我是 python 新手（非常非常新！）并且很难理解元素树附带的所有文档！我想知道是否有人在他们使用过元素树的地方有任何代码，或者是否有人可以向我解释如何去做.. 谢谢！

这是我的 XML 文件中的一个示例..

    <?xml version="1.0" encoding="UTF-8" ?> 
- <lev:Leveringsinformatie xmlns:lev="http://www.kadaster.nl/schemas/klic/20080722/leveringsinfo">
  <lev:Version>1.5</lev:Version> 
  <lev:Klicnummer>10G179900</lev:Klicnummer> 
  <lev:Ordernummer>0065491624</lev:Ordernummer> 
  <lev:RelatienummerGrondroerder>0000305605</lev:RelatienummerGrondroerder> 
  <lev:Leveringsvolgnummer>1</lev:Leveringsvolgnummer> 
  <lev:Meldingsoort>Graafmelding</lev:Meldingsoort> 
  <lev:DatumTijdAanvraag>2010-08-10T11:43:02.779+02:00</lev:DatumTijdAanvraag> 
  <lev:KlantReferentie>1207-0132-030 - 6</lev:KlantReferentie> 
- <lev:Locatie axisLabels="x y" srsDimension="2" srsName="epsg:28992" uomLabels="m m">
- <gml:exterior xmlns:gml="http://www.opengis.net/gml">
- <gml:LinearRing>
  <gml:posList>137800.0 484217.0 137796.0 484222.0 137832.0 483757.0 138178.0 483752.0 138174.0 484222.0 137800.0 484217.0</gml:posList> 
  </gml:LinearRing>
  </gml:exterior>
  </lev:Locatie>
- <lev:Pngformaat>
- <lev:OmsluitendeRechthoek xmlns:ns4="http://www.kadaster.nl/schemas/klic/20080722/madt" xmlns:bis="http://www.kadaster.nl/schemas/klic/20080722/klicnetbeheerdersinformatieservicetypes" xmlns:ns0="http://www.kadaster.nl/schemas/klic/20080722/gias" xmlns:ns7="http://www.kadaster.nl/schemas/klic/20080722/klicnetbeheerdersinformatieservicetypes" xmlns:madt="http://www.kadaster.nl/schemas/klic/20080722/madt" xmlns:gia="http://www.kadaster.nl/schemas/klic/20080722/gias" xmlns:klic="http://www.kadaster.nl/schemas/20080722/klic" xmlns:b="http://www.kadaster.nl/schemas/klic/20080722/bundelingtypes" xmlns:ns9="http://www.kadaster.nl/schemas/klic/20081010/bmkltypes" xmlns:gml="http://www.opengis.net/gml" xmlns:ns1="http://www.kadaster.nl/schemas/20080722/klic" xmlns:a="http://www.kadaster.nl/schemas/klic/20080722/bundelingservicetypes" xmlns:bmkl="http://www.kadaster.nl/schemas/klic/20081010/bmkltypes" xmlns:ns3="http://www.opengis.net/gml" xmlns:ns8="http://www.kadaster.nl/schemas/klic/20080722/knts">
- <gml:Envelope srsDimension="2" srsName="epsg:28992">
  <gml:lowerCorner>137796 483752</gml:lowerCorner> 
  <gml:upperCorner>138178 484222</gml:upperCorner> 
  </gml:Envelope>
  </lev:OmsluitendeRechthoek>
  <lev:PixelsBreed>5348</lev:PixelsBreed> 
  <lev:PixelsHoog>6580</lev:PixelsHoog> 
  </lev:Pngformaat>
- <lev:NetbeheerderLeveringen>
- <lev:NetbeheerderLevering>
  <lev:RelatienummerNetbeheerder>0000578695</lev:RelatienummerNetbeheerder> 
  <lev:Bedrijfsnaam>Gemeente Almere</lev:Bedrijfsnaam> 
  <lev:BedrijfsnaamAfkorting>Gemeente Almere</lev:BedrijfsnaamAfkorting>

我需要提取上下角坐标（lowerCorner/upperCorner）

更新：这是我的完整脚本：

from xml.etree import ElementTree as ET
import sys, string, os, arcgisscripting
gp = arcgisscripting.create(9.3)

workspace = "D:/J040083"
gp.workspace = workspace

for root, dirs, filenames in os.walk(workspace): # returms root, dirs, and files
    for filename in filenames:
        filename_split = os.path.splitext(filename) # filename and extensionname (extension in [1])
        filename_zero = filename_split[0]
        extension = str.upper(filename_split[1])

        try:
            first_2_letters = str.upper(filename_zero[0] + filename_zero[1])
        except:
            first_2_letters = "XX"

        if first_2_letters == "LI" and extension == ".XML":
            tree = ET.parse(workspace)
            print tree.find('//{http://www.opengis.net/gml}lowerCorner').text
            print tree.find('//{http://www.opengis.net/gml}upperCorner').text

我现在收到错误：

消息文件名行位置
追溯
D:\J040083\TXT_EXTRACTION.py 32
解析 C:\Python25\Lib\xml\etree\ElementTree.py 862
解析 C:\Python25\Lib\xml\etree\ElementTree.py 579
IOError：[Errno 13] 权限被拒绝：'D:/J040083'

现在我真的很困惑，因为我可以使用与这个几乎完全相同的不同脚本访问这些文件！

【问题讨论】：

我们都在同一个页面上，你读过ElementTree documentation吗？这是一个参考文档，但整个页面都有一些示例。对于介绍，ElementTree Overview 页面也可能会有所帮助。
令人尴尬的是，我已经读过了！我只是不太明白..
@Alice：我建议您从要解析的 XML 文件中发布一个小的现实 sn-p 并指定您要访问的数据。您可以通过编辑自己的帖子来做到这一点。
我确实尝试过，但它只是出现在我的问题中，格式不正确。所以它没有 cmets，而是只有数字！
@Alice Duff - 如果您要使用 GML 做很多工作，那么我建议您阅读 XML。 GML 可能会变得相当复杂，您会很高兴整理出 XML 基础知识。我不能推荐任何教程，因为我已经有一段时间没有看过它们了，但要避免使用 W3Schools（与 W3 没有联系，实际上是编写规范！），因为它们经常不准确。这是第一个不是 W3Schools 的结果：learn-xml-tutorial.com

标签： python xml parsing elementtree

【解决方案1】：

当涉及命名空间时，ElementTree 可能会很棘手。您要查找的元素名为<gml:lowerCorner> 和<gml:upperCorner>。在 XML 数据中搜索更高层，gml 被定义为 XML 命名空间：xmlns:gml="http://www.opengis.net/gml"。查找XML树的子元素的方法如下：

from xml.etree import ElementTree as ET
tree = ET.parse('file.xml')
print tree.find('//{http://www.opengis.net/gml}lowerCorner').text
print tree.find('//{http://www.opengis.net/gml}upperCorner').text

输出

137796 483752
138178 484222

说明

使用 ElementTree 的 XPath 支持，// 选择树的所有级别上的所有子元素。 ElementTree 使用{url}tag 表示法表示特定命名空间中的标记。 gml 的 URL 是 http://www.opengis.net/gml。 .text 检索元素中的数据。

请注意，// 是查找嵌套节点的快捷方式。 ElementTree 语法中upperCorner 的完整路径其实是：

{http://www.kadaster.nl/schemas/klic/20080722/leveringsinfo}Pngformaat/{http://www.kadaster.nl/schemas/klic/20080722/leveringsinfo}OmsluitendeRechthoek/{http://www.opengis.net/gml}Envelope/{http://www.opengis.net/gml}upperCorner

【讨论】：

+1 以获得很好的解释。唯一我不确定的是每个文档是否最多有 1 个 gml:Envelope，也许 Alice 可以发表评论？
哦，万岁万岁！！有用！！ XML 的其余部分只是人们的姓名和电子邮件地址 - 所以我认为我向您展示的部分是唯一的 gml 部分 - 如果这就是您的意思 james？我现在必须将输出保存在预定义的 excel 文件中！非常感谢大家！
如果答案可以接受，请检查是否接受。很高兴有帮助。 :)
嗨，马克！我不得不取消选中您的答案，因为我有一个新问题 - 还是应该将其作为新问题发布？

【解决方案2】：

使用 ElementTree 非常简单，基本上你创建一个从文件解析的对象，通过名称或路径查找元素，并获取它们的文本或属性。

在您的情况下，它有点复杂，因为您的文件中有命名空间，因此我们必须将路径从形式 ns:tag 转换为形式 {uri}tag。这是transform_path函数的目的

NS_MAP = {
    'http://www.kadaster.nl/schemas/klic/20080722/leveringsinfo' : 'lev',
    'http://www.opengis.net/gml' : 'gml',
}
INV_NS_MAP = {v:k for k, v in NS_MAP.items()} #inverse ns_map 
#for python2: INV_NS_MAP = dict((v,k) for k, v in NS_MAP.iteritems())

#ElementTree expect tags in form {uri}tag, but it would be a pain to have complete uri for eache tag
def transform_path (path):
    res = ''
    tags = path.split('/')
    for tag in tags:
      ns, tag = tag.split(':')
      res += "{"+INV_NS_MAP[ns]+"}"+tag+'/'
    return res

import xml.etree.ElementTree as ET
tree = ET.parse('test.xml')
doc = tree.getroot()

lowerCorner = doc.find(transform_path("lev:Pngformaat/lev:OmsluitendeRechthoek/gml:Envelope/gml:lowerCorner"))
upperCorner = doc.find(transform_path("lev:Pngformaat/lev:OmsluitendeRechthoek/gml:Envelope/gml:upperCorner"))
print (lowerCorner.text)         # Print coordinates
print (upperCorner.text)         # Print coordinates

#for python2: print elem.text

使用您的文件运行脚本将给出以下输出：

137796 483752
138178 484222

【讨论】：

谢谢查尔斯，我正在尝试运行您的代码，但它一直给我最后一行的错误“无效语法”！
我在使这个脚本工作时遇到了一些麻烦。现在我收到倒数第二行的“无效语法”错误..？
我认为它应该可以工作我只是不明白如何让它与我的数据一起工作 - 我会尝试做一些研究，希望我能理解！
我做了一个小脚本，可以读取你文件的坐标