【发布时间】:2023-01-16 22:06:51
【问题描述】:
我想在 Sagemaker Pipeline 中运行 SparkJarProcessor。在创建 SparkJarProcessor 实例后,当我只是 run 处理器时,我可以使用 submit_app 和 submit_class 参数指定要执行的 jar 和类到 run 方法。例如。,
processor.run(
submit_app="my.jar",
submit_class="program.to.run",
arguments=['--my_arg', "my_arg"],
configuration=my_config,
spark_event_logs_s3_uri=log_path
)
如果我想将它作为管道中的一个步骤运行,我可以为 ProcessingStep 提供哪些参数?根据this documentation,您可以在处理器上调用 get_run_args 以“获取在 ProcessingStep 中使用 SparkJarProcessor 时所需的规范化输入、输出和参数“,但是当我这样运行它时,
processor.get_run_args(
submit_app="my.jar",
submit_class="program.to.run",
arguments=['--my_arg', "my_arg"],
configuration=my_config,
spark_event_logs_s3_uri=log_path
)
我的输出如下所示:
RunArgs(code='my.jar', inputs=[<sagemaker.processing.ProcessingInput object at 0x7fc53284a090>], outputs=[<sagemaker.processing.ProcessingOutput object at 0x7fc532845ed0>], arguments=['--my_arg', 'my_arg'])
“program.to.run”不是输出的一部分。那么,假设code是指定jar,那么submit_class的规范化版本是什么?
【问题讨论】:
标签: amazon-web-services apache-spark amazon-sagemaker