【发布时间】:2019-06-29 16:22:14
【问题描述】:
我有一个 Pandas 数据帧,我需要将其转换为 H2O 帧。我使用以下代码-
代码:
# Convert pandas dataframe to H2O frame
start_time = time.time()
input_data_matrix = h2o.H2OFrame(input_df)
logger.debug("3. Time taken to convert H2O Frame- " + str(time.time() - start_time))
输出:
2019-02-05 04:38:55,238 记录器调试 3. 转换 H2O 所需的时间 框架 - 9320.119945764542
数据框(即input_df)大小为 183K x 435,没有空值或 NaN 值。
大约需要 2 个小时。有没有更好的方法来执行这个操作?
【问题讨论】:
-
交叉链接,可能重复但不确定答案是否正确:stackoverflow.com/q/46971969/1240268
-
特别是这条评论 --> stackoverflow.com/questions/46971969/…
-
@aws_apprentice 该评论说明您的数据框是否包含 NaN 或缺失值。我没有。
-
问题围绕着
NaN但该评论仍然适用,您必须将整个数据帧从 python 写出到 java 内存,然后将其发送到云端,评论建议通过以下方式减少工作量删去pandas到h20的步骤,所以我认为它适用
标签: python pandas performance dataframe h2o