在 h2o.ai 中，如何在 java 或 scala 中加载训练数据？答案

【问题标题】：In h2o.ai, how to load train data in java or scala?在 h2o.ai 中，如何在 java 或 scala 中加载训练数据？
【发布时间】：2017-09-19 06:53:26
【问题描述】：

在我的项目中，我将使用 h2o 的机器学习算法。虽然我不加载火车日期。我使用以下方式。

 var f = FileUtils.getFile("D:\\from_2017_2_13\\untitled2\\src\\main\\resources\\extdata\\iris_wheader.csv")
 println(11111)
 var frame = FrameUtils.parseFrame(Key.make("iris_weather.hex"),f)
 println(22222)

输出了11111，然后程序会运行，不会停止

其他方式

 var f = FileUtils.getFile("D:\\from_2017_2_13\\untitled2\\src\\main\\resources\\extdata\\iris_wheader.csv")
 val parserSetup = H2OFrame.defaultParserSetup()
    parserSetup.setSeparator(',').setCheckHeader(ParseSetup.HAS_HEADER).setNumberColumns(5)
 val f3 = new H2OFrame(parserSetup, f)
    f3

错误

Exception in thread "main" java.lang.ArrayIndexOutOfBoundsException: 65535
 at water.DKV.get(DKV.java:202)
 at water.DKV.get(DKV.java:175)
 at water.parser.ParseSetup.createHexName(ParseSetup.java:594)
 at water.fvec.H2OFrame.<init>(H2OFrame.scala:56)
 at water.fvec.H2OFrame.<init>(H2OFrame.scala:84)

【问题讨论】：

标签： java scala h2o

【解决方案1】：

要将数据作为 H2O Frame 加载到 Scala 中，您可以执行以下操作：

import org.apache.spark.h2o._
import water.support.SparkContextSupport.addFiles
import org.apache.spark.SparkFiles
import java.io.File

val hc = H2OContext.getOrCreate(sc)

addFiles(sc, "/Users/avkashchauhan/smalldata/iris/iris.csv")
val irisData = new H2OFrame(new File(SparkFiles.get("iris.csv")))

加载数据后，您可以看到如下数据框：

scala> irisData
res1: water.fvec.H2OFrame =
   Frame key: iris.hex
   cols: 5
   rows: 150
 chunks: 1
   size: 2454

获取数据框后，您可以使用它构建模型。如果您正在寻找在 Scala 中使用 H2O 库的示例，您可以在此博客中查找 full end to end Scala based deep learning sample in H2O。

【讨论】：