Json 文件解析答案

【问题标题】：Json Files parsingJson 文件解析
【发布时间】：2015-06-22 21:02:17
【问题描述】：

所以我试图打开一些 json 文件来查找出版年份并相应地对它们进行排序。但在此之前，我决定在单个文件上进行试验。不过我遇到了麻烦，因为虽然我可以获得文件和字符串，但是当我尝试打印一个单词时，它会开始打印字符。

例如：

打印数据2[1] #prints

新娘饰品，即。 Fiue MEDITATIONS、Morall 和 Diuine。 #结果

但是现在 print data2[1][0] #应该打印 THE

T #prints T

这是我现在的代码：

json_data =open(path)
data = json.load(json_data)
i=0

data2 = []

for x in range(0,len(data)):
    data2.append(data[x]['section'])
    if len(data[x]['content']) > 0:
        for i in range(0,len(data[x]['content'])):
            data2.append(data[x]['content'][i])

【问题讨论】：

标签： json file-io nlp text-parsing textinput

【解决方案1】：

我可能需要查看您的 json 文件才能确定，但在我看来，data2 列表是一个字符串列表。因此，data2[1] 是一个字符串。当您执行 data2[1][0] 时，预期的结果就是您得到的 - 字符串中第 0 个索引处的字符。

>>> data2[1]
'THE BRIDES ORNAMENTS, Viz. Fiue MEDITATIONS, Morall and Diuine.'
>>> data2[1][0]
'T'

为了得到第一个单词，天真地，你可以用空格分割字符串

>>> data2[1].split()
['THE', 'BRIDES', 'ORNAMENTS,', 'Viz.', 'Fiue', 'MEDITATIONS,', 'Morall', 'and', 'Diuine.']
>>> data2[1].split()[0]
'THE'

但是，这会导致标点符号出现问题，因此您可能需要对文本进行标记。这个链接应该有帮助 - http://www.nltk.org/_modules/nltk/tokenize.html

【讨论】：