【发布时间】:2016-06-27 09:22:28
【问题描述】:
所以,我有一个 JSON 文件,它很大,而且还在不断增加。 所以,我在这里展示一个更简单的版本。
{
"b0:47:bf:af:c1:42":
{
"No. of visits": 10, "cities":
{
"Mumbai": {"count": 5,"last_visited": "5/22/2016"},
"Kolkata": {"count": 2,"last_visited": "5/22/2016"},
"Amritsar":{"count": 3,"last_visited": "5/22/2016"}
}
},
"c0:ee:fb:71:be:0d":
{
"No. of visits": 24, "cities":
{
"Mumbai": {"count": 2,"last_visited": "5/22/2016"},
"Kolkata": {"count": 20,"last_visited": "5/22/2016"},
"Amritsar":{"count": 2,"last_visited": "5/22/2016"}
}
}
}
所以,基本上它包含一个 id 的信息,基本上是 mac_address b0:47:bf:af:c1:42 并且与一个用户相关。所以,我想要的是对 JSON 进行操作并将输出存储在数据帧类型的结构中。
就像我想知道用户的最大访问城市以及他/她对 max_visited 城市的总访问量的百分比。
所以,我想要上述数据的输出。
mac_address max_vis city %visit to max_vis city
b0:47:bf:af:c1:42 Mumbai 50%
k0:k0:k0:k0:k0:k0 Kolkata 83%
应该使用什么样的工具来简单高效地对 JSON 进行这种操作。我听说 MongoDB 可以用于此,但我不知道。早些时候我试图在 python 中做到这一点,是否有一种有效的方法可以在 python 中做到这一点?所以,如果有人能建议我应该使用什么并提供一些基础知识,那将非常有帮助。谢谢
【问题讨论】:
-
你可以使用
json模块来python解析文件,但我不太明白你的问题是什么。 -
@PatrykPerduta 解析很好看我有什么作为输入,而想要的输出
count是没有。他访问城市的次数 -
您要求我们为您创建完整的解决方案?
-
@PatrykPerduta 正如我所提到的,这只是整个问题的一小部分,而不是解决方案,“所以,如果有人能建议我应该使用什么并提供一些基础知识,那将非常有帮助。”当我用这句话结束问题时。
-
感谢您的解释。您需要分析的文件有多大?您已经有了一些解决方案,但它太慢了,或者您只是因为文件很大而估计这很慢?
标签: python json mongodb data-analysis bigdata