【发布时间】:2016-11-21 10:14:53
【问题描述】:
我有以下问题。 我正在使用 API 连接到某个地方,并将数据作为输入流获取。 目标是在删除重复行后保存数据。 由第 10、15、22 列定义的重复。
我正在使用多个线程获取数据。 目前我首先将数据保存到 csv 文件中,然后删除重复项。 我想在读取数据时这样做。 数据量约为1000万条记录。 我可以使用的内存有限。 这台机器有 32gb 内存,但我的内存有限,因为还有其他应用程序在使用它。
我在这里阅读了有关使用哈希映射的信息。 但我不确定我是否有足够的内存来使用它。
有没有人建议如何解决这个问题?
【问题讨论】:
-
您有 API 给出的输出示例吗?是由三列 (10,15,22) 的组合定义的重复,还是这些列中的每一列都必须是唯一的而不参考其他列?
-
api 的输出是一个类似这样的字符串:="banna",="orange",="apple"... 等大约 30 个元素。这些列的组合是关键。
标签: java