【发布时间】:2020-06-11 00:21:12
【问题描述】:
当我从一个较大的 xml 文件中解析下面的 xml 字符串时,我遇到了我认为无效的 HTML 字符代码,解析器输出以下错误消息。
错误信息是: ParseError: 引用无效字符数
我删除了描述正文的其余部分,并留下了导致错误的部分。如何让 elementtree 忽略这些无效的 HTML 字符代码或以某种方式处理它们?
代码和xml摘录如下:
XML: <dc:description> **(10ƚ)** </dc:description>
import os
import html
import io
import sys
import xml.etree.ElementTree as ET
def process_file(file):
parser=ET.XMLParser(encoding='utf-8')
tree=ET.parse(file, parser=parser)
【问题讨论】:
标签: python xml file parsing elementtree