【发布时间】:2018-03-07 20:24:05
【问题描述】:
我有问题。如何在不将其再次卸载到 redshift 的情况下复制数据框?
val companiesData = spark.read.format("com.databricks.spark.redshift")
.option("url","jdbc:redshift://xxxx:5439/cf?user="+user+"&password="+password)
.option("query","select * from cf_core.company")
//.option("dbtable",schema+"."+table)
.option("aws_iam_role","arn:aws:iam::xxxxxx:role/somerole")
.option("tempdir","s3a://xxxxx/Spark")
.load()
import class.companiesData
class test {
val secondDF = filteredDF(companiesData)
def filteredDF(df: Dataframe): Dataframe {
val result = df.select("companynumber")
result
}
}
在这种情况下,这将卸载数据两次。首先从表中选择 *,其次它将通过仅选择公司编号卸载。我如何可以一次卸载数据并多次操作?这对我来说是个严重的问题。感谢帮助
【问题讨论】:
标签: scala amazon-web-services apache-spark amazon-redshift