【发布时间】:2020-12-12 15:52:34
【问题描述】:
当我保存到 parquet 文件时,是否应该为包含字典列表的列使用特殊的 pyarrow 数据类型?
如果我将列表或字典列表保存为字符串,我通常必须 .apply(eval) 该字段如果我再次将其读入内存以便熊猫将数据识别为列表(因此我可以使用 @ 对其进行规范化987654322@)
column_a:
[
{"id": "something", "value": "else"},
{"id": "something2", "value": "else2"},
]
column_b:
["test", "test2", "test3"]
只是想知道我是否应该将此数据保存为字符串以外的其他内容。
编辑 - 从 Zendesk 粘贴一些原始 JSON 的 sn-p。 audits 字段有一个名为 events 的字段,它是一个字典列表。在其中,还可以有其他字典列表(附件,其中有一个名为thumbnails的字典列表)
你能用 pa.map_ 来处理这样的情况吗?我有时需要从这些我最初甚至不知道存在的嵌套字段中检索数据。在我当前的 parquet 数据集中,events 字段只是一列 (字符串类型)即使里面有很多嵌套字段。
udt = pa.map_(pa.string(), pa.string())
.
"audit": {
"id": ,
"ticket_id": ,
"created_at": "",
"author_id": ,
"events": [
{
"id": ,
"type": "",
"author_id": ,
"body": "" ,
"plain_body": "",
"public": false,
"attachments": [
{
"url": "",
"id": ,
"file_name": "",
"content_url": "",
"content_type": "image/png",
"size": 2888,
"width": 100,
"height": 30,
"inline": false,
"deleted": false,
"thumbnails": [
{
"url": "",
"id": ,
"file_name": "",
"content_url": "",
"mapped_content_url": "",
"content_type": "image/png",
"size": 2075,
"width": 80,
"height": 24,
"inline": false,
"deleted": false
}
]
},
【问题讨论】:
-
为什么投反对票?似乎是一个有趣的问题。