【发布时间】:2017-06-26 05:34:13
【问题描述】:
我在 R 中有一个 [210,000 x 500] 稀疏矩阵,我正在尝试使用 h2o 进行聚类。 我想象一个 210,000 行的矩阵对于 h2o 来说并没有那么大,但是当我尝试将它导入到 h2o 实例时它需要很长时间(让它运行超过 10 分钟并在完成前停止它) 当我对稀疏矩阵中的前 10,000 行进行子集化并将其导入时,只需几秒钟。我已经尝试逐步进行,这需要很长时间。 (60,000 我停止了) 这是正常的还是我做错了什么?
这是我正在使用的
library(h2o)
localH2O <- h2o.init(nthreads = -1, max_mem_size = "16g")
spmx.h2o <- as.h2o(sparse_mx)
以下是生成 h2o 实例时的更多信息:
java version "1.8.0_131"
Java(TM) SE Runtime Environment (build 1.8.0_131-b11)
Java HotSpot(TM) 64-Bit Server VM (build 25.131-b11, mixed mode)
Starting H2O JVM and connecting: . Connection successful!
R is connected to the H2O cluster:
H2O cluster uptime: 6 seconds 779 milliseconds
H2O cluster version: 3.10.4.6
H2O cluster version age: 1 month and 30 days
H2O cluster name: H2O_started_from_R_M_vto433
H2O cluster total nodes: 1
H2O cluster total memory: 14.22 GB
H2O cluster total cores: 4
H2O cluster allowed cores: 4
H2O cluster healthy: TRUE
H2O Connection ip: localhost
H2O Connection port: 54321
H2O Connection proxy: NA
H2O Internal Security: FALSE
R Version: R version 3.4.0 (2017-04-21)
我试图避免将矩阵写入文件并再次导入,只是因为我认为 210,000 行和 500 列不应该是 h2o 处理的问题
【问题讨论】:
-
找到了几个 SO 答案,似乎解决了数据传输速度方面的问题。这是一个:stackoverflow.com/questions/41477700/…我会搜索其他人,然后说出您尝试了哪些以及为什么他们没有解决您的问题。
-
我已经打开了一张 JIRA 票,我们正在调查这个问题:0xdata.atlassian.net/browse/PUBDEV-4630
标签: r performance import sparse-matrix h2o