【发布时间】:2020-12-02 11:53:40
【问题描述】:
我想将从整数数组中获取的新值列添加到 Spark 读取的 CSV。
SQLContext context = new SQLContext(spark);
StructType customSchema = new StructType(new StructField[] {
new StructField("sex", DataTypes.StringType, true, Metadata.empty())
});
int[] values= {31, 28, 31};
DataFrameReader read = context.read().format("com.databricks.spark.csv").
schema(customSchema).
option("header", true).
option("delimiter", ",");
Dataset<Row> csvDataset = read.load(path).withColumn("age", ...);
也许可以用withColumn()函数来完成,但我不知道如何设置值。
有什么办法吗?
+---+---+
|sex|age|
+---+---+
|M |31 |
|F |28 |
|F |31 |
+---+---+
【问题讨论】:
标签: java csv apache-spark