【发布时间】:2016-09-14 03:19:21
【问题描述】:
我正在从 CSV 文件中读取 H2OFrame:
val h2oFrame = new H2OFrame(new File(inputCsvFilePath))
我怎样才能执行等效的.filter() 操作(适用于 Spark DataFrame 或 RDD)。例如,我如何获得一个新的H2OFrame,其中“标签”(这是一个列名)是>1?
我尝试转换为org.apache.spark.sql.DataFrame 如下(简化示例):
val df = asDataFrame(h2oFrame)
val dff = df.filter(s"label > 1")
print(dff.toString(0,15))
但这似乎会抛出OutOfMemoryError,如下所示:
异常:线程“Executor task launch worker-2”中的 UncaughtExceptionHandler 抛出 java.lang.OutOfMemoryError
【问题讨论】:
-
好的,看起来
OutOfMemoryError可以通过将-XX:MaxPermSize=92m增加到更高的值来解决。仍然想在H2OFrame上直接回答原始问题的答案。
标签: scala h2o sparkling-water