【发布时间】:2013-06-03 22:12:28
【问题描述】:
我正在解析一些 UTF8 文本,其中包含 UTF-8 NO-BREAK SPACE (C2A0) 而不是常规空格字符,这导致 NSXMLParser 出现问题。
例如,包含 3 个常规空格字符的“我是一个字符串”将作为一个完整的字符串传递给解析器:(NSXMLParser *)parser foundCharacters:(NSString *)string。
但是,包含 3 个 NO-BREAK-SPACES 而不是常规空格的“我是一个字符串”会导致 4 次解析器调用:(NSXMLParser *)parser foundCharacters:(NSString *)string 和 4 个子字符串。
我只想提取“我是一个字符串”,如果遇到这些 UTF8 字符,是否有任何巧妙的解决方案可以让 NSURLConnection 不将其分解为子字符串?
我无法控制输入 - 它来自服务器作为 UTF8 编码的 XML over HTTP。
【问题讨论】:
-
这是 HTML 还是 XML?该文本周围是什么?标签?引号?文件中是否定义了 DTD?
-
它的 XML 带有被标签包围的文本。
-
DTD 在顶部?类似于:
-
嗨,是的,正如您所展示的那样。
标签: ios