【问题标题】:Convert pyspark script to awsglue script将 pyspark 脚本转换为 awsglue 脚本
【发布时间】:2022-08-18 19:43:14
【问题描述】:

我有一堆想要使用 AWS Glue 执行的现有 pyspark 脚本。这些脚本使用 SparkSession.read 之类的 API 以及 pyspark DataFrames 中的各种转换。

我无法找到概述如何转换此类脚本的文档。您是否有提示/示例可以找到更多信息?谢谢 :)

    标签: pyspark aws-glue aws-glue-spark


    【解决方案1】:

    Pyspark 脚本应该在 AWS Glue 上按原样运行,因为 Glue 基本上是添加了一些自定义 AWS 库的 Spark。首先,我将它粘贴到 Glue 中并尝试运行它。

    如果您需要 Glue 的某些功能,例如动态框架或书签,那么您将需要修改脚本以获取 GlueContext 并使用它。基本的初始化是:

    from pyspark.sql import SparkSession
    spark_session = SparkSession.builder.getOrCreate()
    glueContext = GlueContext(spark_session.sparkContext)
    

    从这里开始,您可以使用 glueContext 获得 Glue 功能或使用 spark_session 获得普通 Spark 功能。

    【讨论】:

      猜你喜欢
      • 2016-09-09
      • 2021-04-15
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2019-06-23
      • 2011-02-19
      • 2022-06-15
      • 1970-01-01
      相关资源
      最近更新 更多