【发布时间】:2015-02-07 03:11:48
【问题描述】:
我正在运行一个接收纯 utf8 文本并将内容解析为 JSON 的 Node 服务器。 JSON 的一部分将是 HTML 文档的正文。
问题是当输入有诸如“ä”或“'”之类的字符时,HTML 文档会变得很疯狂。我想这与解析器对这些特殊字符的编码/解码有关。
对此有什么想法吗?
[编辑]
解析和JSON对象基本是这样的:
var string = <mail_body><html> html code here...<html><mail_body>
var mail_body = string.split("<mail_body>")[1]
var obj = {
"subject": "subject 123",
"mail_body": mail_body
}
【问题讨论】:
-
你控制传入的文本吗?
-
取决于控制的含义。我将文本作为流接收:stream.on('data', function(chunk) {buffer = buffer+chunk.toString('utf8')})。但是数据本身来自其他来源,所以我无法删除我不想包含的字符
-
你有什么方法可以知道 HTML 的边界是什么吗?这里可能真正有用的是输入可能采用的格式示例。例如,如果它是 json 和 html 的混合,它将比纯 html 更棘手。
-
glenatron,刚刚编辑了这篇文章,展示了我解析内容和构建 JSON 对象的方式
标签: javascript json node.js parsing