【发布时间】:2017-04-27 18:06:31
【问题描述】:
我有一个具有以下结构的数据集
+--------------------+--------------------+--------------------+-----+
| content | entities | id|topic|
+--------------------+--------------------+--------------------+-----+
entities 是一个字符串列表,命名实体,topic 是一个整数。
我想总结一个主题中每个不同实体的外观。
我的第一步是
table.groupBy("topic");
然后我想聚合,但我该怎么做,我很想实现一个自定义聚合器,但是我需要一个 Map<String,Integer> 的编码器,我不知道如何创建。
如何进行这种聚合?
【问题讨论】:
-
确定:entities 是一个列表,所以 id=1,entities=a,b,c; id=2,实体:b、e、f、r?
-
是的,正是这个
标签: java apache-spark dataset