【发布时间】:2019-04-15 12:55:52
【问题描述】:
我目前正在开发一个单页 Web 应用程序,该应用程序允许用户将大型 CSV 文件(目前正在测试约 7GB 文件)上传到烧瓶服务器,然后将该数据集流式传输到数据库。上传大约需要一分钟,文件被完全保存到烧瓶服务器上的临时文件中。现在我需要能够流式传输此文件并将其存储到数据库中。我做了一些研究,发现 PySpark 非常适合流式传输数据,我选择 MySQL 作为将 CSV 数据流式传输到的数据库(但我对其他数据库和流式传输方法持开放态度)。我是一名初级开发人员,也是 PySpark 的新手,所以我不知道该怎么做。 Spark streaming guide 表示数据必须通过 Kafka、Flume、TCP 套接字等来源获取,所以我想知道是否必须使用这些方法中的任何一种将我的 CSV 文件导入 Spark。但是,我遇到了这个great example,他们将 csv 数据流式传输到 Azure SQL 数据库中,看起来他们只是使用 Spark 直接读取文件,而无需通过 Kafka 等流式源来摄取它。唯一的事情是该示例使我感到困惑的是,他们正在使用 HDInsight Spark 群集将数据流式传输到数据库中,而我不确定如何将所有这些与烧瓶服务器合并。我为缺少代码而道歉,但目前我只有一个烧瓶服务器文件,其中一条路由进行文件上传。任何示例、教程或建议将不胜感激。
【问题讨论】:
标签: python mysql flask pyspark spark-streaming