【发布时间】:2020-02-24 11:00:49
【问题描述】:
我有一个包含 HTML 的 JSON,我需要使其可解析。 Pandas 无法导入这种 JSON。
text = """[{
"article_id": 3540349,
"site_id": 1563,
"domain": "https:\/\/ear.rt.hm",
"code": "wta-jurmala-benara-u-ctrtl",
"uri": "https:\/\/ar.rl.hq\/spormala-berera-u-cetinalu\/",
"content_type": {
"id": 1,
"name": "article"
},
"article_type": {
"id": 1,
"name": "article"
},
"created": "2019-07-25 23:58:20",
"modified": "2019-07-25 23:59:19",
"publish_date": "2019-07-25 23:58:00",
"active": true,
"author": "<a href=\"https:\/\/spt02.com\" target=\"_blank\">I
Kapri<\/a>"
}]"""
text = text.replace('\"', "'")
结果是(不管文字差异):
'author': '<a href='https:\/\/spo.hq' target='_blank'>Iv<\/a>'
当我尝试替换 '\"' 时,我得到:
"author": "<a href="https:\/\/spr.hq" target="_blank">Ilari<\/a>"
这又不是我想要的。
有谁知道如何正确地将 \" 转义为 ' ?
【问题讨论】:
-
\"和"在"""常规字符串文字中是相同的"字符,print( """ " \" """)=>" ",请参阅 demo。'\"'='"',所以你对.replace('\"', "'")所做的只是将每个"替换为' -
@Ivan Ivković:错误是什么?如何将数据加载到 Pandas 中?根据 jsonlint.com,您的 JSON 数据是正确的。
标签: python json regex parsing double-quotes