如何为数据科学目的存储heroku日志？答案

【问题标题】：How to store heroku logs for data science purposes?如何为数据科学目的存储heroku日志？
【发布时间】：2020-09-15 02:39:33
【问题描述】：

我们可以看到如何view heroku logs，以及如何write the last n lines as a text file。

是否有任何既定模式可用于合理且简单的日志存储、（可能是ETL）和分析？

至少，这将涉及：

存储日志
将日志（例如通过 ETL）移动到可以对其进行整体分析的地方（例如 AWS S3 或 GCP GCS）

是否有任何既定的模式来实现这一点？

背景

为什么会有人想要大量的日志？如果它是相关的，我试图实现的一项具体任务是在网络日志上使用贝叶斯推理来回答如下问题：“如果一个人点击了 A、B 和 C，那么他们点击 D 的可能性是 x% "（以便更好地了解用户可能对哪些其他页面感兴趣，从而向用户推荐更相关的页面）。在 python 或 R 中，这一切都非常简单。但显然，在执行此类数据科学之前，需要访问日志（所有日志）。

到目前为止我所知道的

Heroku 提供several logging addons

【问题讨论】：

标签： heroku

【解决方案1】：

最好的解决方案可能是设置 heroku 应用程序，将您的日志也通过管道传输到 S3 存储桶或类似的东西中。尽管您可能希望对其进行设置，使其仅发送您真正感兴趣的日志数据。如果您能得到一些可以为您执行此操作的东西，那就更好了。

看起来 PaperTrail 至少允许这样做。这是当前的文档链接： https://documentation.solarwinds.com/en/Success_Center/papertrail/Content/kb/how-it-works/automatic-s3-archive-export.htm?cshid=pt-how-it-works-automatic-s3-archive-export

虽然它可能会变得相当昂贵，具体取决于您使用外部服务需要处理的日志量。否则，您可能只需要推出自己的解决方案（或者更好的是，寻找可以提供帮助的宝石）

【讨论】：