【发布时间】:2018-07-30 13:49:14
【问题描述】:
我正在使用 Google Dataproc 执行数百万次操作,但存在一个问题,即日志数据大小。 我不执行任何显示或任何其他类型的打印,但 7 行 INFO 乘以数百万得到一个非常大的日志记录大小。
有什么方法可以避免 Google Dataproc 记录日志?
已经在 Dataproc 中尝试过,但没有成功:
https://cloud.google.com/dataproc/docs/guides/driver-output#configuring_logging
这是我想摆脱的 7 行:
18/07/30 13:11:54 INFO org.spark_project.jetty.util.log:记录已初始化@...
18/07/30 13:11:55 信息 org.spark_project.jetty.server.Server: ....z-SNAPSHOT
18/07/30 13:11:55 信息 org.spark_project.jetty.server.Server:已启动 @...
18/07/30 13:11:55 INFO org.spark_project.jetty.server.AbstractConnector:已启动 ServerConnector@...
18/07/30 13:11:56 INFO com.google.cloud.hadoop.fs.gcs.GoogleHadoopFileSystemBase:GHFS 版本:...
18/07/30 13:11:57 INFO org.apache.hadoop.yarn.client.RMProxy:正在连接到 ResourceManager ...
18/07/30 13:12:01 INFO org.apache.hadoop.yarn.client.api.impl.YarnClientImpl: 提交申请 application_...
【问题讨论】:
-
您在什么日志中看到这些行?这是司机输出还是工人?这有什么影响(成本?体积?)在哪里(stackdriver?主/工作磁盘?)
-
在 Stackdriver 日志中。我在几天内超过了 50 GB 的限制,到目前为止,看起来 GCP 不会为此向我收费,但这种日志记录没有用,这就是我想避免它的原因
标签: apache-spark pyspark google-cloud-platform google-cloud-dataproc