【发布时间】:2021-10-16 06:39:17
【问题描述】:
我如何使用 python 将来自多个来源的不同数据放入 HDFS
我已经尝试过使用 pyspark(在 Pycharm IDEA 中)的 SQL 文件,并且成功了。
现在我需要更多功能,让我能够将不同的其他数据摄取到 HDFS 中
【问题讨论】:
我如何使用 python 将来自多个来源的不同数据放入 HDFS
我已经尝试过使用 pyspark(在 Pycharm IDEA 中)的 SQL 文件,并且成功了。
现在我需要更多功能,让我能够将不同的其他数据摄取到 HDFS 中
【问题讨论】:
PySpark 用途广泛——它可以通过 Streaming/SQL 读取多个输入。您需要更具体地说明您尝试从哪些来源加载。
但是,如果您想要一种更易于获取的方式来摄取大量数据,那么 apache-kafka 就是为此而明确构建的。如果您不想编写大量代码,那么您也可以查看apache-nifi,它很好地集成到了 Hadoop 生态系统中。
【讨论】: