【问题标题】:In Java spark, how to select columns based on index在Java spark中,如何根据索引选择列
【发布时间】:2022-08-23 15:25:28
【问题描述】:

我如何只能从 java spark 中的 csv 文件(文件中没有列名)中选择第 2 列和第 5 列,代码如下:

Dataset<Row> dataset = getSparkSession().get().read()
                .option(\"delimiter\", \"|\")
                .option(\"header\", false)
                .csv(fileName);
  • 如果你这样阅读文件,那么_c1_c4 分别是第二和第五列。

标签: java apache-spark apache-spark-dataset


【解决方案1】:

您将通过以下命令获取架构:

dataset.printSchema();

之后选择你想要的列

dataset.select("c1",c4");

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2019-01-01
    • 2013-10-09
    • 1970-01-01
    • 2023-01-02
    • 2018-06-21
    • 2021-02-02
    • 2012-07-10
    • 2012-10-07
    相关资源
    最近更新 更多