Hadoop处理数据遇到超大矩阵问题
数据集如图片所示,我需要用某个简单公式计算两两数据之间的相似性,这样就会计算出一个12乘12的方阵,在后面的计算中,不同的步骤会用到方阵中的若干行,请问如果是一个超大数据集怎么办?假如说我有100万条数据,那么这个方阵就是100万乘100万那么大,相信再大的集群也很难胜任这样的任务,更别说后面还有复杂的计算,各位网友有什么好的方法吗?放在Hadoop中处理,应该如何设计算法逻辑?

相关文章:

  • 2021-12-29
  • 2021-07-26
  • 2022-12-23
  • 2021-04-09
  • 2021-12-14
  • 2022-12-23
猜你喜欢
  • 2021-09-18
  • 2021-06-08
  • 2022-12-23
  • 2022-12-23
  • 2021-12-14
  • 2022-12-23
  • 2021-06-19
相关资源
相似解决方案