【问题标题】:Avoid Google Dataproc logging避免使用 Google Dataproc 记录
【发布时间】:2018-07-30 13:49:14
【问题描述】:

我正在使用 Google Dataproc 执行数百万次操作,但存在一个问题,即日志数据大小。 我不执行任何显示或任何其他类型的打印,但 7 行 INFO 乘以数百万得到一个非常大的日志记录大小。

有什么方法可以避免 Google Dataproc 记录日志?

已经在 Dataproc 中尝试过,但没有成功:

https://cloud.google.com/dataproc/docs/guides/driver-output#configuring_logging

这是我想摆脱的 7 行:

18/07/30 13:11:54 INFO org.spark_project.jetty.util.log:记录已初始化@...

18/07/30 13:11:55 信息 org.spark_project.jetty.server.Server: ....z-SNAPSHOT

18/07/30 13:11:55 信息 org.spark_project.jetty.server.Server:已启动 @...

18/07/30 13:11:55 INFO org.spark_project.jetty.server.AbstractConnector:已启动 ServerConnector@...

18/07/30 13:11:56 INFO com.google.cloud.hadoop.fs.gcs.GoogleHadoopFileSystemBase:GHFS 版本:...

18/07/30 13:11:57 INFO org.apache.hadoop.yarn.client.RMProxy:正在连接到 ResourceManager ...

18/07/30 13:12:01 INFO org.apache.hadoop.yarn.client.api.impl.YarnClientImpl: 提交申请 application_...

【问题讨论】:

  • 您在什么日志中看到这些行?这是司机输出还是工人?这有什么影响(成本?体积?)在哪里(stackdriver?主/工作磁盘?)
  • 在 Stackdriver 日志中。我在几天内超过了 50 GB 的限制,到目前为止,看起来 GCP 不会为此向我收费,但这种日志记录没有用,这就是我想避免它的原因

标签: apache-spark pyspark google-cloud-platform google-cloud-dataproc


【解决方案1】:

您要查找的是exclusion filter:您需要从控制台浏览到 Stackdriver Logging > Logs ingestion > Exclusions,然后点击“创建排除”。正如那里解释的那样:

要创建日志排除,请编辑左侧的过滤器以仅匹配 您不希望包含在 Stackdriver Logging 中的日志。后 已创建排除项,匹配的日志将不再 可在 Stackdriver Logging 中访问。

在你的情况下,过滤器应该是这样的:

resource.type="cloud_dataproc_cluster"
textPayload:"INFO org.spark_project.jetty.util.log: Logging initialized"
...

【讨论】:

    猜你喜欢
    • 2017-06-18
    • 1970-01-01
    • 1970-01-01
    • 2012-05-15
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2019-11-16
    相关资源
    最近更新 更多