【发布时间】:2021-07-29 08:58:34
【问题描述】:
我目前正在使用 AWS 和 PySpark。我的表存储在 S3 中,可从 Athena 查询。
在我的 Glue 工作中,我习惯于将表格加载为:
my_table_df = sparkSession.table("myTable")
但是,这一次,我想访问另一个数据库中的表,位于同一数据源 (AwsDataCatalog) 中。所以我做了一些效果很好的事情:
my_other_table_df = sparkSession.sql("SELECT * FROM anotherDatabase.myOtherTable")
我只是在寻找一种更好的方法来编写相同的东西,而无需使用 SQL 查询,只需为该操作指定数据库即可。应该是这样的
sparkSession.database("anotherDatabase").table("myOtherTable")
欢迎提出建议
【问题讨论】:
标签: pyspark apache-spark-sql aws-glue amazon-athena