避免使用 Google Dataproc 记录答案

【问题标题】：Avoid Google Dataproc logging避免使用 Google Dataproc 记录
【发布时间】：2018-07-30 13:49:14
【问题描述】：

我正在使用 Google Dataproc 执行数百万次操作，但存在一个问题，即日志数据大小。我不执行任何显示或任何其他类型的打印，但 7 行 INFO 乘以数百万得到一个非常大的日志记录大小。

有什么方法可以避免 Google Dataproc 记录日志？

已经在 Dataproc 中尝试过，但没有成功：

https://cloud.google.com/dataproc/docs/guides/driver-output#configuring_logging

这是我想摆脱的 7 行：

18/07/30 13:11:54 INFO org.spark_project.jetty.util.log：记录已初始化@...

18/07/30 13:11:55 信息 org.spark_project.jetty.server.Server: ....z-SNAPSHOT

18/07/30 13:11:55 信息 org.spark_project.jetty.server.Server：已启动 @...

18/07/30 13:11:55 INFO org.spark_project.jetty.server.AbstractConnector：已启动 ServerConnector@...

18/07/30 13:11:56 INFO com.google.cloud.hadoop.fs.gcs.GoogleHadoopFileSystemBase：GHFS 版本：...

18/07/30 13:11:57 INFO org.apache.hadoop.yarn.client.RMProxy：正在连接到 ResourceManager ...

18/07/30 13:12:01 INFO org.apache.hadoop.yarn.client.api.impl.YarnClientImpl: 提交申请 application_...

【问题讨论】：

您在什么日志中看到这些行？这是司机输出还是工人？这有什么影响（成本？体积？）在哪里（stackdriver？主/工作磁盘？）
在 Stackdriver 日志中。我在几天内超过了 50 GB 的限制，到目前为止，看起来 GCP 不会为此向我收费，但这种日志记录没有用，这就是我想避免它的原因

标签： apache-spark pyspark google-cloud-platform google-cloud-dataproc

【解决方案1】：

您要查找的是exclusion filter：您需要从控制台浏览到 Stackdriver Logging > Logs ingestion > Exclusions，然后点击“创建排除”。正如那里解释的那样：

要创建日志排除，请编辑左侧的过滤器以仅匹配您不希望包含在 Stackdriver Logging 中的日志。后已创建排除项，匹配的日志将不再可在 Stackdriver Logging 中访问。

在你的情况下，过滤器应该是这样的：

resource.type="cloud_dataproc_cluster"
textPayload:"INFO org.spark_project.jetty.util.log: Logging initialized"
...

【讨论】：