【发布时间】:2017-02-27 06:23:13
【问题描述】:
我正在开发一个推荐引擎。我认为我无法将整个相似度矩阵保存在内存中。 我计算了 10,000 个项目的相似性,它是超过 4000 万个浮点数。我将它们存储在一个二进制文件中,它变成了 160 MB。
哇! 问题是我可以拥有近 200,000 件物品。 即使我将它们分成几个组并为每个组创建相似度矩阵,我仍然必须在某个时候将它们加载到内存中。 但是会消耗很多内存。
那么,有没有办法处理这些数据?
我应该如何存储它们并加载到内存中,同时确保我的引擎对输入的响应速度相当快?
【问题讨论】:
标签: recommendation-engine bigdata