【发布时间】:2017-06-06 10:52:01
【问题描述】:
当我使用 PySpark 获得一张桌子时
df1 = session.read.jdbc(url=self.url,
table=self.table,
properties={"driver": self.driver,
"user": self.user,
"password": self.password})
或
df1 = sql.read.format("com.databricks.spark.redshift")
.options(url=self.url,
query=self.table,
user=self.user,
password=self.password,
tempdir="s3://path/data/").load()
然后我应用了一些转换,比如 joins 和 groupBy
df3 = df1.join(df2, df1.id == df2.id)
df_res = df3.groupBy("id").agg({'tax': 'sum'})
这是针对数据库的吗? 如果是的话,在内存中这样做的方法是什么?
【问题讨论】:
标签: apache-spark jdbc pyspark apache-spark-sql pyspark-sql