【发布时间】:2020-07-19 14:52:17
【问题描述】:
我有这个 xml:
<?xml version="1.0" encoding="UTF-8" ?>
<rss xmlns:excerpt="http://wordpress.org/export/1.2/excerpt/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:wfw="http://wellformedweb.org/CommentAPI/" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:wp="http://wordpress.org/export/1.2/" version="2.0">
<channel>
<wp:wxr_version>1.2</wp:wxr_version>
<item>
<title type="html">
<![CDATA[ <h1 class="title">“Title with special character”</h1> ]]>
</title>
<content:encoded type="html">
<![CDATA[ <div class="content clearfix">
<p>Content Example Text</p>
</div> ]]>
</content:encoded>
<wp:post_id>0</wp:post_id>
<wp:post_date>2000-09-30T10:22:00.001Z</wp:post_date>
</item>
</channel>
</rss>
在 html 标题标签内有 unicode 字符:U+0007
为什么xml无效?
我正在使用 CDATA,这不应该使它有效吗?
如何在构造 xml 之前验证哪些符号无效并删除它们?
【问题讨论】:
-
您的问题得到解答了吗?如果是这样,请accept 提供您认为最有帮助的答案。谢谢。
标签: xml utf-8 symbols xml-validation