【问题标题】:How to transform Dataset<Tuple2<String,DeviceData>> to Iterator<DeviceData>如何将 Dataset<Tuple2<String,DeviceData>> 转换为 Iterator<DeviceData>
【发布时间】:2017-07-16 08:01:34
【问题描述】:

我有Dataset&lt;Tuple2&lt;String,DeviceData&gt;&gt; 并想将其转换为Iterator&lt;DeviceData&gt;

下面是我使用collectAsList() 方法然后获取Iterator&lt;DeviceData&gt; 的代码。

Dataset<Tuple2<String,DeviceData>> ds = ...;
List<Tuple2<String, DeviceData>> listTuple = ds.collectAsList();

ArrayList<DeviceData> myDataList = new ArrayList<DeviceData>();
for(Tuple2<String, DeviceData> tuple : listTuple){
    myDataList.add(tuple._2());
}

Iterator<DeviceData> myitr = myDataList.iterator();

我不能使用collectAsList(),因为我的数据量很大,会影响性能。我查看了 Dataset API,但找不到任何解决方案。我用谷歌搜索但找不到任何答案。有人可以指导我吗?如果解决方案是在 java 中,那就太好了。谢谢。

编辑:

DeviceData 类是简单的 javabean。这是 ds 的 printSchema() 输出。

root
 |-- value: string (nullable = true)
 |-- _2: struct (nullable = true)
 |    |-- deviceData: string (nullable = true)
 |    |-- deviceId: string (nullable = true)
 |    |-- sNo: integer (nullable = true)

【问题讨论】:

    标签: java apache-spark apache-spark-2.0 apache-spark-dataset


    【解决方案1】:

    您可以直接从ds中提取DeviceData,而无需再次收集和构建。

    Java:

    Function<Tuple2<String, DeviceData>, DeviceData> mapDeviceData =
        new Function<Tuple2<String, DeviceData>, DeviceData>() {
          public DeviceData call(Tuple2<String, DeviceData> tuple) {
            return tuple._2();
          }
        };
    
    Dataset<DeviceData> ddDS = ds.map(mapDeviceData) //extracts DeviceData from each record
    

    斯卡拉:

    val ddDS = ds.map(_._2) //ds.map(row => row._2)
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2017-08-27
      • 1970-01-01
      • 2021-04-12
      • 2020-10-30
      • 2019-05-05
      • 1970-01-01
      相关资源
      最近更新 更多