时间序列记录/统计 - 可扩展的解决方案答案

【问题标题】：time series logging/statistics - scalable solution时间序列记录/统计 - 可扩展的解决方案
【发布时间】：2013-05-18 06:16:16
【问题描述】：

查询数据库或日志文件以获取正常运行时间信息或每个给定时间间隔的请求数是很常见的。

随着您收集的数据越来越多，SQL 查询或日志爬取变得越来越慢（想象一下 1000 万个表行/日志行）。

典型问题：

我想使用一些键值存储：许多具有不同自动过期的存储桶 - 所以我们可以研究例如10 分钟/1 小时/1 天存储桶并汇总所有项目，并自豪地说“在过去 10 分钟内，我们处理了 10^6 个请求”。

我确信 MongoDB 或 Redis 在存储桶中提供时间到期 - 我只是有点担心实现是否简单。

你会如何解决这个问题？你知道更好的工具来完成这项任务吗？

（我们的项目是用java和python编写的）

【问题讨论】：

我的第一个想法是使用一些 AOP 来捕获您想要的 KPI 数据，但是使用 python 以及我想它不会起作用。我的一些客户正在使用 Zabbix (zabbix.com) 来捕获 Mysql 和 Webserver KPI。

【解决方案1】：

我会建议一种不同的概念方法...

假设您有一个记录请求的日志表。以下是我将如何解决报告日志数据的问题：

总体思路是日志数据在完成后是静态的。您可以对数据运行一次聚合，它永远不会改变。那么为什么每次都是实时的呢？

您想让实时数据变得非常小且快速。旧数据要么快速查找已知聚合，要么处理时间更长。

【讨论】：

【解决方案2】：

CouchDB 二级索引/视图在O(log n) time 中公开您的数据，并且由于整个事物位于 RESTful HTTP API 后面，因此实现和交互毫不费力。看看吧：

CouchDB 有 Java 和 Python 的客户端库，但归根结底只是一个 RESTful HTTP API，所以任何 HTTP 库都应该可以做到这一点。

【讨论】：

【解决方案3】：

您可以为此使用 RDDTool。 http://oss.oetiker.ch/rrdtool/ IT 是一个非常有用的库，用于记录时间序列数据并使用它们创建图表。

【讨论】：