问题描述

在自动化的项目中,需要将spark-submit程序包装起来,通过c语言或者shell来调用,因为需要记录日志,即需要知道每次提交的spark的程序的applicationId, 将其记录。spark程序是使用yarn cluster模式提交的,因此driver在集群中的任意机子,无法确定。

什么是applicationId

applicationId是Spark应用程序的唯一标识符。根据不同的提交模式,通常有以下两种格式

  • local模式下,一般以local- 开头,例如 local-1433865536131
  • yarn模式下,则以application_开头,例如application_1433865536131_34483

解决方法

  1. 在spark编写的程序中获得,然后可以写到对应的HDFS文件上或通过邮件通知,但这个并不是很符合我的需求。
    例子如下:
  • Python

    >>> sc._jsc.sc().applicationId()
    u'application_1433865536131_34483'
    >>> sc.applicationId 
    u'application_1433865536131_34483'
    >>> #以上两种方法都可以。
    
  • Scala

    scala> sc.applicationId
    res0: String = application_1433865536131_34483
    
  1. 在spark-submit后, 捕捉stdout/stderr,然后解析固定的pattern获取applicationId。
    例如解析标准输出中的 Yarn Application id: application_1433865536131_34483

参考资料
spark-yarn-mode-how-to-get-applicationid-from-spark-submit)

 

相关文章:

  • 2022-12-23
  • 2022-01-13
  • 2021-08-06
  • 2021-09-08
  • 2021-05-28
  • 2021-06-01
猜你喜欢
  • 2022-12-23
  • 2021-10-12
  • 2021-10-07
  • 2021-08-03
  • 2021-04-03
  • 2022-03-09
  • 2021-10-10
相关资源
相似解决方案