python json.loads 到熊猫数据框答案

【问题标题】：python json.loads to pandas dataframepython json.loads 到熊猫数据框
【发布时间】：2018-03-07 00:42:56
【问题描述】：

我有一个返回 JSON 数据的 URL，如下所示：

{
    u 'fields': [{
            u 'keyField': False,
            u 'name': u '_blockid',
            u 'fieldType': u 'long'
        }, {
            u 'keyField': False,
            u 'name': u '_collector',
            u 'fieldType': u 'string'
        }, {
            u 'keyField': False,
            u 'name': u '_collectorid',
            u 'fieldType': u 'long'
        }, {
            u 'keyField': False,
            u 'name': u '_messageid',
            u 'fieldType': u 'long'
        }
    ],
    u 'messages': [{
            u 'map': {
                u '_messageid': u '-9223368783568280026',
                u '_collectorid': u '135927517',
                u '_blockid': u '-9223372036519990555',
                u '_collector': u 'collector1',
            }
        }, {
            u 'map': {
                u '_messageid': u '-92233645345280026',
                u '_collectorid': u '13545342517',
                u '_blockid': u '-92234254242343219990555',
                u '_collector': u 'collector2',
            }
        }
    ]
}

这是一个sn-p。真正的 JSON 在 ['messages']['map']

下包含数千个值

我有一个运行如下的脚本

rJSON = requests.get(JsonURL, auth=(username, password))
DATA = json.loads(rJSON.text)
for x in DATA[u'messages']:
    print type(x[u'map'])
    for i in x[u'map']:
        print np.isscalar(x[u'map'][i])

    df = pd.DataFrame.from_dict(x[u'map'])
    break ### TESTING ###

这会输出以下内容

<type 'dict'>
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True

---------------------------------------------------------------------------
ValueError                                Traceback (most recent call last)
<ipython-input-151-1b71c28d4d83> in <module>()
     11     for i in x[u'map']:
     12         print np.isscalar(q[i])
---> 13     df = pd.DataFrame.from_dict(x[u'map'])
     14 
     15     #if isinstance(msgData, pd.DataFrame): # If the variable is a dataframe, append to it...

C:\Users\USERID\AppData\Local\Continuum\Anaconda2\lib\site-packages\pandas\core\frame.pyc in from_dict(cls, data, orient, dtype)
    849             raise ValueError('only recognize index or columns for orient')
    850 
--> 851         return cls(data, index=index, columns=columns, dtype=dtype)
    852 
    853     def to_dict(self, orient='dict'):

C:\Users\USERID\AppData\Local\Continuum\Anaconda2\lib\site-packages\pandas\core\frame.pyc in __init__(self, data, index, columns, dtype, copy)
    273                                  dtype=dtype, copy=copy)
    274         elif isinstance(data, dict):
--> 275             mgr = self._init_dict(data, index, columns, dtype=dtype)
    276         elif isinstance(data, ma.MaskedArray):
    277             import numpy.ma.mrecords as mrecords

C:\Users\USERID\AppData\Local\Continuum\Anaconda2\lib\site-packages\pandas\core\frame.pyc in _init_dict(self, data, index, columns, dtype)
    409             arrays = [data[k] for k in keys]
    410 
--> 411         return _arrays_to_mgr(arrays, data_names, index, columns, dtype=dtype)
    412 
    413     def _init_ndarray(self, values, index, columns, dtype=None, copy=False):

C:\Users\USERID\AppData\Local\Continuum\Anaconda2\lib\site-packages\pandas\core\frame.pyc in _arrays_to_mgr(arrays, arr_names, index, columns, dtype)
   5494     # figure out the index, if necessary
   5495     if index is None:
-> 5496         index = extract_index(arrays)
   5497     else:
   5498         index = _ensure_index(index)

C:\Users\USERID\AppData\Local\Continuum\Anaconda2\lib\site-packages\pandas\core\frame.pyc in extract_index(data)
   5533 
   5534         if not indexes and not raw_lengths:
-> 5535             raise ValueError('If using all scalar values, you must pass'
   5536                              ' an index')
   5537 

ValueError: If using all scalar values, you must pass an index

我知道这很疯狂，因为字典包含标量值，但我不知道为什么它们被 json.loads() 作为标量加载到字典中，或者如何将它们从标量转换为字符串。

我的最终目标是将所有 ['messages']['map'] 数据和 pd.concat 在循环中放入我可以分析的 1 个大型数据帧中。

是否可以阻止 json.loads 将它们作为标量加载？或者有没有办法将它们从标量转换为可以加载到数据框中的其他东西？

【问题讨论】：

试试orient='index'参数？

标签： python python-2.7 pandas

【解决方案1】：

数据中的messages是一个字典列表，你可以用DataFrame.from_records加载它，然后用apply(pd.Series)将内部字典转换为最终数据框的行：

pd.DataFrame.from_records(data['messages']).map.apply(pd.Series)

#                   _blockid  _collector _collectorid            _messageid
#0      -9223372036519990555  collector1    135927517  -9223368783568280026
#1  -92234254242343219990555  collector2  13545342517    -92233645345280026

【讨论】：