【发布时间】:2011-01-05 08:23:22
【问题描述】:
我有一个包含 1.2 亿条记录的列表,每条记录大约 40/50 字节,这大约是 5.5/6 GB 的原始内存空间,不包括将数组保存在内存中所需的任何额外存储空间。
我想确保此列表是唯一的。我尝试这样做的方法是创建一个 Hashset
当我达到大约 3300 万条记录时,我的内存不足,列表创建速度变慢。
有没有更好的方法来及时对这个庞大的条目列表进行排序?我能想到的唯一解决方案是使用 Amazon EC2 高内存四重超大型实例一小时。
谢谢
【问题讨论】:
-
您存储的这个数据集在哪里?