【发布时间】:2022-08-18 19:43:14
【问题描述】:
我有一堆想要使用 AWS Glue 执行的现有 pyspark 脚本。这些脚本使用 SparkSession.read 之类的 API 以及 pyspark DataFrames 中的各种转换。
我无法找到概述如何转换此类脚本的文档。您是否有提示/示例可以找到更多信息?谢谢 :)
标签: pyspark aws-glue aws-glue-spark
我有一堆想要使用 AWS Glue 执行的现有 pyspark 脚本。这些脚本使用 SparkSession.read 之类的 API 以及 pyspark DataFrames 中的各种转换。
我无法找到概述如何转换此类脚本的文档。您是否有提示/示例可以找到更多信息?谢谢 :)
标签: pyspark aws-glue aws-glue-spark
Pyspark 脚本应该在 AWS Glue 上按原样运行,因为 Glue 基本上是添加了一些自定义 AWS 库的 Spark。首先,我将它粘贴到 Glue 中并尝试运行它。
如果您需要 Glue 的某些功能,例如动态框架或书签,那么您将需要修改脚本以获取 GlueContext 并使用它。基本的初始化是:
from pyspark.sql import SparkSession
spark_session = SparkSession.builder.getOrCreate()
glueContext = GlueContext(spark_session.sparkContext)
从这里开始,您可以使用 glueContext 获得 Glue 功能或使用 spark_session 获得普通 Spark 功能。
【讨论】: