【问题标题】:extract two tags instead of one from xml file从 xml 文件中提取两个标签而不是一个标签
【发布时间】:2021-09-28 17:45:06
【问题描述】:

我的这段代码可以正常工作。

它提取维基百科文章的所有标题。

import bz2
import xml.sax
import xml.sax.handler

class Handler(xml.sax.handler.ContentHandler):
    def __init__(self):
        self.__buffer = None

    def characters(self, data):
        if self.__buffer is None:
            return
        self.__buffer.append(data)

    def startElement(self, name, attrs):
        if name == 'title':
            self.__buffer = []

    def endElement(self, name):
        if self.__buffer is None:
            return
        print(repr(name), repr(''.join(self.__buffer)))
        self.__buffer = None

with bz2.open('/home/mrwiki-20210701-pages-meta-current.xml.bz2', 'r') as stream:
    xml.sax.parse(stream, Handler())

我正在尝试提取“文本”字段的 bytes 参数以及“标题”。 这不起作用,因为我只需要“字节”而不是实际文本。

if name == 'title':
    self.__buffer = []
if name == 'text':
    self.__buffer = []

这是一个示例记录...

myfile = """
<mediawiki xmlns="http://www.mediawiki.org/xml/export-0.10/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.mediawiki.org/xml/expo
rt-0.10/ http://www.mediawiki.org/xml/export-0.10.xsd" version="0.10" xml:lang="mr">
  <siteinfo>
    <sitename>xyz</sitename>
    <dbname>mrwiki</dbname>
    <base>https://xx.wikipedia.org/wiki/xxxxxxxxxx</base>
    <generator>MediaWiki 1.37.0-wmf.11</generator>
    <case>first-letter</case>
    <namespaces>
      <namespace key="-2" case="first-letter">मिडिया</namespace>
      <namespace key="2303" case="case-sensitive">Gadget definition talk</namespace>
    </namespaces>
  </siteinfo>
  <page>
    <title>my_title </title>
    <ns>0</ns>
    <id>1</id>
    <revision>
      <id>1857942</id>
      <parentid>1629326</parentid>
      <timestamp>2020-12-26T11:34:51Z</timestamp>
      <contributor>
        <username>andesh9822</username>
        <id>66586</id>
      </contributor>
      <model>wikitext</model>
      <format>text/x-wiki</format>
      <text bytes="5823" xml:space="preserve"> some text
 </text>
      <sha1>11z9foqntwoukfd4xfjnfhpc9y33r25</sha1>
    </revision>
  </page>

"""

当前:my_title

预期:my_title 5823

【问题讨论】:

  • 您是否尝试过使用attr.getValue('bytes')docs.python.org/3/library/…
  • 这个问题与 XPath 或 xmllint 无关。这些标签不属于这里。
  • 处理容器元素,page 元素,设置缓冲区或任何其他数据结构来存储 titletext,然后在处理这些元素时填充它并打印它在处理 textpage 元素的结束元素时。
  • 我认为使用 XPath 和 xmllint 可以更优雅地实现相同的目标。如果不是这种情况,那么我将删除这些标签。
  • 获取属性的值(在本例中为bytes)是一项常见任务。处理 XML 的方法有很多种。您是否出于性能原因使用 SAX(非常大的 XML 文件)?

标签: python xpath sax xmllint


【解决方案1】:

以下是使用 ElementTree 和 iterparse() 的方法:

import bz2
from xml.etree import ElementTree as ET
 
with bz2.open("mrwiki-20210701-pages-meta-current.xml.bz2", "r") as stream:
    for _, elem in ET.iterparse(stream):
        if elem.tag == "{http://www.mediawiki.org/xml/export-0.10/}title":
            print(elem.text)
        if elem.tag == "{http://www.mediawiki.org/xml/export-0.10/}text":
            print(elem.get("bytes"))
        elem.clear()

iterparse() 构建了一个会占用大量内存的树形结构。 elem.clear() 通过在处理完元素后从元素中删除所有内容来解决此问题。

XML 文件中的元素绑定到http://www.mediawiki.org/xml/export-0.10/ 命名空间。必须考虑到这一点。


这里是基于 SAX 的代码,其作用相同。

import bz2
import xml.sax
import xml.sax.handler
 
class Handler(xml.sax.handler.ContentHandler):
    def characters(self, data):
        self.__buffer = data
 
    def startElement(self, name, attrs):
        if name == "title":
            self.__buffer = ""
        if name == "text":
            self.__buffer2 = attrs.getValue("bytes")
            
    def endElement(self, name):
        if name == "title":
            print(self.__buffer)
        if name == "text":
            print(self.__buffer2)
 
with bz2.open("mrwiki-20210701-pages-meta-current.xml.bz2", "r") as stream:
    xml.sax.parse(stream, Handler())

SAX 解析器消耗很少的内存,因为它只是在事件发生时报告它们。

默认情况下,xml.sax.handler.feature_namespaces 为 false,这意味着解析器不会报告与命名空间相关的事件。就好像没有命名空间一样。

【讨论】:

  • 这是正确的。但是我会等待再接受答案,因为我想知道使用 xpath 或 xmllint 命令是否更容易。
  • 我不知道有没有其他方法会更简单。请一次询问一个问题。问题是关于 Python 和 SAX。如果您需要有关 XPath 和/或 xmllint 的帮助,请发布一个单独的问题。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2017-06-13
  • 1970-01-01
  • 2020-03-30
相关资源
最近更新 更多