【发布时间】:2019-11-19 04:05:51
【问题描述】:
有一个我想洗牌的大数据集。整个集合不适合 RAM,所以如果我可以同时打开多个文件(例如 hdf5、numpy),按时间顺序循环遍历我的数据并将每个数据点随机分配给其中一个堆(然后将每个桩)。
我对在 python 中处理数据非常缺乏经验,所以我不确定是否可以在不将其余内容保存在 RAM 中的情况下写入文件(一直使用 np.save 和 savez,但收效甚微)。
这可能吗,在 h5py 或 numpy 中,如果是,我该怎么做?
【问题讨论】:
-
@desertnaut 洗牌庞大的数据集与机器学习无关?
-
读/写行?
-
标签是关于问题的内容,而不是它的context;这么说来,ML 确实与“洗牌巨大的数据集”无关。如果这种改组与拟合您的模型有关,则该标记在这里是合适的 - 但这里不是这种情况。
-
标签部分用于吸引该地区有经验的人。正如我所提到的,绝大多数对改组大型数据集感兴趣的人都会像我一样这样做,以帮助提高模型的性能。因此,我包含了这个标签,因为在机器学习方面有经验的人可能会遇到这个问题并解决它。这显然不是一个荒谬的标签,所以下次你想发出尖刻的评论时,不妨忍住。
-
你可以使用 Dask 数组来分块你的数据docs.dask.org/en/stable/array-creation.html