【发布时间】:2021-01-08 15:40:23
【问题描述】:
我是 Spark 的新手,我正在使用下面给出的数据框代码加载一个巨大的 CSV 文件
Dataset<Row> df = sqlContext.read().format("com.databricks.spark.csv").schema(customSchema)
.option("delimiter", "|").option("header", true).load(inputDataPath);
现在在数据框中加载 CSV 数据后,现在我想遍历每一行并基于一些列想要从 PostgreSQL DB 查询(执行一些几何操作)。稍后想将从数据库返回的一些字段与数据框记录合并。最好的方法是什么,考虑大量的记录。 任何帮助表示赞赏。我正在使用 Java。
【问题讨论】:
-
从不迭代行。对另一个数据库使用
join。
标签: java apache-spark apache-spark-sql