【发布时间】:2012-07-09 12:04:01
【问题描述】:
我正在从事一个大数据挖掘的研究项目。我目前已经编写了代码来将我拥有的数据组织到字典中。但是,数据量如此之大,以至于在形成字典时,我的计算机内存不足。我需要定期将我的字典写入主内存并以这种方式创建多个字典。然后我需要比较生成的多个字典,相应地更新键和值,并将整个内容存储在磁盘上的一个大字典中。知道如何在 python 中做到这一点吗?我需要一个可以快速将字典写入磁盘然后比较 2 个字典并更新密钥的 api。我实际上可以编写代码来比较 2 个字典,这不是问题,但我需要这样做而不会耗尽内存..
我的字典看起来像这样: "orange" : ["这是一种水果","很好吃",...]
【问题讨论】:
-
你能给我们一个你的字典是什么样子的样本吗?你只是在计算单词的出现次数吗?
-
除了@HughBothwell 提到的 - 数据在组织(到字典中)之前来自哪里?
-
我有一个庞大的推特推文数据库。请参阅斯坦福 SNAP 推特数据库。
-
嗯,“SNAP”是一个要求吗?或者您可以使用 MongoDB 之类的东西和 MapReduce 来获得足够的东西来使用图论吗?
标签: python memory data-mining