【发布时间】:2018-12-06 19:06:47
【问题描述】:
我的项目需要实时处理消息文件(.txt)。我曾经实时接收来自 3rd 方的消息文件到我们的登陆区,我们应该从那里拿起文件进行处理。以下是建议的数据流。
Source --> Landing Zone --> HDFS --> PySpark --> Parquet/CSV --> Data Store
每当我在着陆区看到一个新文件时,应该将其拾取并移动到 HDFS,然后下游进程应该实时处理它。我可以使用 PySpark 流式处理这个用例吗?如果是这样,请尽可能分享一些详细信息和链接。
【问题讨论】:
标签: apache-spark pyspark hdfs pyspark-sql