【发布时间】:2011-05-13 08:44:55
【问题描述】:
嗨 我想从字符串中删除所有无效的 XML 字符。 我想在 string.replace 方法中使用正则表达式。
喜欢
line.replace(regExp,"");
什么是正确的正则表达式?
无效的 XML 字符是不是这个的一切:
[#x1-#xD7FF] | [#xE000-#xFFFD] | [#x10000-#x10FFFF]
谢谢。
【问题讨论】:
-
这取决于您要替换的内容。什么是“无效的 XML 字符”?
-
你说得对,我已经添加了信息
-
为什么您认为该范围内的字符对 XML 无效?您可以使用
[^\u0001-\uD7FF\uE000-\uFFFD]匹配超出范围的 2 字节 unicode 字符(需要检查,我不确定语法)。对 24 位字符一无所知,抱歉。 -
在这里找到了有效的 XML 字符:w3.org/TR/2006/REC-xml11-20060816/#NT-RestrictedChar
标签: java xml regex invalid-characters