【发布时间】:2017-12-24 18:44:59
【问题描述】:
在我看来,pandas 在数据解析期间支持投影(省略或选择列)的想法将非常有用。
我发现许多 JSON 数据集有大量我不需要的无关字段,或者我需要解析嵌套结构中的特定字段。
我目前所做的是通过jq 创建一个仅包含我需要的字段的文件。这成为“清理过的”文件。
我更喜欢这样一种方法,每次我想查看一个特定的构面或一组构面时,我都不必创建一个新的清理文件,但我可以告诉 pandas 加载 JSON 路径 .data.interesting 和仅限项目字段:A B C。
举个例子:
{
"data": {
"not interesting": ["milk", "yogurt", "dirt"],
"interesting": [{ "A": "moonlanding", "B": "1956", "C": 100000, "D": "meh" }]
}
【问题讨论】: