优雅地从 expat 中的解析错误中恢复答案

【问题标题】：Gracefully recover from parse error in expat优雅地从 expat 中的解析错误中恢复
【发布时间】：2011-03-21 17:52:55
【问题描述】：

XML 应该是严格的，因此有一些 Unicode 字符在 XML 中是不允许的。但是，我正在尝试使用通常包含这些字符的 RSS 提要，并且我想避免从无效字符中解析错误，或者从它们中优雅地恢复并呈现文档。

在此处查看示例（无论如何在 3 月 21 日）：http://feeds.feedburner.com/chrisblattman

在 XML 提要中处理 unicode 的推荐方法是什么？检测字符并替换为空字节，编辑解析器，还是其他方法？

【问题讨论】：

标签： python xml parsing unicode expat-parser

【解决方案1】：

该 RSS 提要似乎包含一个垂直制表符 \x0c，这是非法的 per the XML 1.0 spec。

我的建议是在将数据传递给 expat 之前过滤掉非法字符，而不是尝试捕获错误并恢复。这是一个过滤掉非法 Unicode 字符的例程。我在您的chrisblattman.xml RSS 提要上对其进行了测试：

import re
from xml.parsers import expat

# illegal XML 1.0 character ranges
# See http://www.w3.org/TR/REC-xml/#charsets
XML_ILLEGALS = u'|'.join(u'[%s-%s]' % (s, e) for s, e in [
    (u'\u0000', u'\u0008'),             # null and C0 controls
    (u'\u000B', u'\u000C'),             # vertical tab and form feed
    (u'\u000E', u'\u001F'),             # shift out / shift in
    (u'\u007F', u'\u009F'),             # C1 controls
    (u'\uD800', u'\uDFFF'),             # High and Low surrogate areas
    (u'\uFDD0', u'\uFDDF'),             # not permitted for interchange
    (u'\uFFFE', u'\uFFFF'),             # byte order marks
    ])

RE_SANITIZE_XML = re.compile(XML_ILLEGALS, re.M | re.U)

# decode, filter illegals out, then encode back to utf-8
data = open('chrisblattman.xml', 'rb').read().decode('utf-8')
data = RE_SANITIZE_XML.sub('', data).encode('utf-8')

pr = expat.ParserCreate('utf-8')
pr.Parse(data)

更新：这里是a Wikipedia page 关于 XML 字符有效性的内容。我上面的正则表达式过滤掉了 C1 控制范围，但您可能希望根据您的应用程序允许这些字符。

【讨论】：

【解决方案2】：

您可以尝试Beautiful Soupwich 可以解析 HTML/XML 文档，即使它们格式不正确。

【讨论】：