【发布时间】:2016-09-05 13:54:51
【问题描述】:
我对机器学习很陌生,所以我需要一些帮助。
我有 spark 流式传输作业,它将有关用户用电量的数据提取到 Cassandra。我用这些数据填充了多个表,其中最重要的是“hourly_data”,它指定了每个用户在特定小时内用了多少电。
我想要做的是预测到一天、一个月或一年结束之前用户将花费多少电力。
我应该为此使用哪些库和模型? 回归是我真正需要的吗?
我想我无法在流式作业中进行预测,但我需要为此启动批处理?
另外,如果我可以在特定的一天绘制预期的用户行为,直到一天结束(一个月或一年相同......)Spark 中的哪些库可以帮助我做到这一点,那就太好了?有教程吗?
非常感谢
【问题讨论】:
标签: apache-spark machine-learning regression apache-spark-mllib apache-spark-ml