如何在 Databricks Spark 中存储旧的流数据？

【问题标题】：How to store old streaming data in Databricks Spark?如何在 Databricks Spark 中存储旧的流数据？
【发布时间】：2018-04-21 22:37:26
【问题描述】：

我是 Spark Streaming 和 Azure Databricks 的新手。我阅读了很多关于 spark 如何工作和处理数据等的文章。但是旧数据呢？如果 Spark 适用于交互式数据，那么 Spark 可以保留我 2 周前或 2 个月前的数据吗？或者假设我必须在转换后移动数据我应该在哪里移动并清除火花内存？它只会存储在SSD中吗？

【问题讨论】：

标签： scala databricks

【解决方案1】：

Azure Databricks 支持多个数据存储（作为静态数据的源和目标）。大数据的良好做法是安装 Azure Data Lake Store。如果您有流式数据源（如 Kafka 或 EventHubs），您可以将其用作接收器，并且可以将其重新用于进一步分析。

有关受支持的数据源，请参阅 https://docs.azuredatabricks.net/spark/latest/data-sources/index.html。

【讨论】：