【问题标题】:Json Files parsingJson 文件解析
【发布时间】:2015-06-22 21:02:17
【问题描述】:

所以我试图打开一些 json 文件来查找出版年份并相应地对它们进行排序。但在此之前,我决定在单个文件上进行试验。不过我遇到了麻烦,因为虽然我可以获得文件和字符串,但是当我尝试打印一个单词时,它会开始打印字符。

例如:

打印数据2[1] #prints

新娘饰品,即。 Fiue MEDITATIONS、Morall 和 Diuine。 #结果

但是现在 print data2[1][0] #应该打印 THE

T #prints T

这是我现在的代码:

json_data =open(path)
data = json.load(json_data)
i=0

data2 = []

for x in range(0,len(data)):
    data2.append(data[x]['section'])
    if len(data[x]['content']) > 0:
        for i in range(0,len(data[x]['content'])):
            data2.append(data[x]['content'][i])

【问题讨论】:

    标签: json file-io nlp text-parsing textinput


    【解决方案1】:

    我可能需要查看您的 json 文件才能确定,但​​在我看来,data2 列表是一个字符串列表。因此,data2[1] 是一个字符串。当您执行 data2[1][0] 时,预期的结果就是您得到的 - 字符串中第 0 个索引处的字符。

    >>> data2[1]
    'THE BRIDES ORNAMENTS, Viz. Fiue MEDITATIONS, Morall and Diuine.'
    >>> data2[1][0]
    'T'
    

    为了得到第一个单词,天真地,你可以用空格分割字符串

    >>> data2[1].split()
    ['THE', 'BRIDES', 'ORNAMENTS,', 'Viz.', 'Fiue', 'MEDITATIONS,', 'Morall', 'and', 'Diuine.']
    >>> data2[1].split()[0]
    'THE'
    

    但是,这会导致标点符号出现问题,因此您可能需要对文本进行标记。这个链接应该有帮助 - http://www.nltk.org/_modules/nltk/tokenize.html

    【讨论】:

      猜你喜欢
      • 2016-06-19
      • 2018-10-10
      • 2019-06-09
      • 2020-04-12
      • 1970-01-01
      • 2017-07-16
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多