【发布时间】:2016-12-20 06:57:37
【问题描述】:
我想读入两个带有数据的文本文件,并对我的 Java Spark 项目中的数据运行一些机器学习分类
设fileZero和fileOne为两个文件,包含如下形式的数据
>fileZero
10 1
9.8 1.2
10.1 0.9
....
还有另一个文件
>fileOne
0.1 40
0.2 38
0 50
...
对于fileZero 和fileOne,每行包含一个由空格分隔的 (x,y) 元组,分别标记为 0 和 1。换句话说,fileZero 中的所有行都应该标记为 0,fileOne 的标记为 1。
我想读入这两个文件并考虑使用对象Dataset。
如何读取这两个文件,以便稍后我可以对数据进行分类/逻辑回归?
【问题讨论】:
标签: java apache-spark machine-learning spark-dataframe apache-spark-mllib