【发布时间】:2020-09-29 20:20:55
【问题描述】:
我正在研究过去几个月的 spark。其中Dataset用作对象的分布式集合。
我不担心它是如何分布的,而是一个基本的数据结构。我很想知道如何将它放在 java 中如果会创建我自己的 Dataset 类似的东西。
看起来像这样Dataset<Row>。其中 Row 是记录并且可以是多个。
这就是创建Dataset<Row>的工作原理
List<Row> rows = new ArrayList<Row>();
for (Employee e : employees) {
rows.add(RowFactory.create(e.getFirstname(),
e.getLastname(),
e.getTitle(),
e.getId(),
e.getDivision(),
e.getSupervisor()));
}
return rows.iterator();
上面给了我这样的Dataset<Row>
任何人都可以分享如何将其放置在 Java 中吗?我的意思是java中的一些代码负责创建类似Dataset<Row>
我不是要求完整的代码,只是一个基本的想法,以便我可以清楚地想象它在后端的样子。
基本的小样本数据结构会很有帮助。
谢谢
【问题讨论】:
标签: java apache-spark data-structures apache-spark-dataset