【问题标题】:Time series forecasting in Spark & Spark StreamingSpark 和 Spark Streaming 中的时间序列预测
【发布时间】:2016-09-05 13:54:51
【问题描述】:

我对机器学习很陌生,所以我需要一些帮助。

我有 spark 流式传输作业,它将有关用户用电量的数据提取到 Cassandra。我用这些数据填充了多个表,其中最重要的是“hourly_data”,它指定了每个用户在特定小时内用了多少电。

我想要做的是预测到一天、一个月或一年结束之前用户将花费多少电力。

我应该为此使用哪些库和模型? 回归是我真正需要的吗?

我想我无法在流式作业中进行预测,但我需要为此启动批处理?

另外,如果我可以在特定的一天绘制预期的用户行为,直到一天结束(一个月或一年相同......)Spark 中的哪些库可以帮助我做到这一点,那就太好了?有教程吗?

非常感谢

【问题讨论】:

    标签: apache-spark machine-learning regression apache-spark-mllib apache-spark-ml


    【解决方案1】:

    为了预测一天、一​​个月和一年,您需要相应地分析您的时间序列。 例如,如果您想预测当天的使用情况。您需要按天汇总每小时数据。 输入数据:

    date       | hour | consumption|
    --------------------------------
    2016-05-07 | 01   | 0.3        |
    2016-05-07 | 02   | 0.3        |
    2016-05-07 | 03   | 0.3        |
    2016-05-08 | :    | 0.3        |
    2016-05-08 | :    | 0.3        |
    2016-05-09 | 20   | 0.4        |
    2016-05-09 | 21   | 0.1        |
    2016-05-09 | 22   | 0.2        |
    2016-05-09 | 23   | 0.3        |
    2016-05-09 | 24   | 0.3        |
    

    您的个人资料系列应该是

    date       | consumption|
    --------------------------------
    2016-05-07 | 1          |
    2016-05-08 | 1.3        |
    2016-05-09 | 2.3        |
    

    此外,如果您缺少数据,则必须对此进行说明。 分析数据后,您可以尝试不同的模型,例如 ARIMA、Holt-Winters,也可以尝试一些状态空间模型。就图书馆而言 spark-timeseries 具有 ARIMA 实现。

    【讨论】:

      猜你喜欢
      • 2016-05-16
      • 1970-01-01
      • 2017-02-04
      • 1970-01-01
      • 1970-01-01
      • 2020-03-19
      • 2018-01-05
      • 1970-01-01
      • 2020-10-29
      相关资源
      最近更新 更多