【发布时间】:2013-11-29 17:52:18
【问题描述】:
使用 SQL 数据库,无需将数据导出到应用程序服务器,即可轻松执行统计/聚合函数,如协方差、标准差、峰度、偏度、偏差、均值和中位数、求和和乘积等。 http://www.xarg.org/2012/07/statistical-functions-in-mysql/
在一般的 NoSql 数据库和特别是 dynamodb(cassandra) 上,对于大型数据集,如何有效地完成此类计算(尽可能靠近存储,假设 map/reduce “作业”不是实时的)。
AWS RDS(MySQL、PostgresSQL,...)不是 NoSQL,而 Amazon Redshift(ParAccel)——一个列存储——有一个 SQL 接口,可能有点过头了(6.85 美元/小时)。 Redshift 的聚合功能有限(http://docs.aws.amazon.com/redshift/latest/dg/c_Aggregate_Functions.html、http://docs.aws.amazon.com/redshift/latest/dg/c_Window_functions.html)
【问题讨论】:
标签: mysql postgresql cassandra amazon-dynamodb amazon-redshift