【问题标题】:input data from multiple source into hadoop(HDFS)从多个源输入数据到hadoop(HDFS)
【发布时间】:2021-10-16 06:39:17
【问题描述】:

我如何使用 python 将来自多个来源的不同数据放入 HDFS

我已经尝试过使用 pyspark(在 Pycharm IDEA 中)的 SQL 文件,并且成功了。

现在我需要更多功能,让我能够将不同的其他数据摄取到 HDFS 中

【问题讨论】:

    标签: python hadoop


    【解决方案1】:

    PySpark 用途广泛——它可以通过 Streaming/SQL 读取多个输入。您需要更具体地说明您尝试从哪些来源加载。

    但是,如果您想要一种更易于获取的方式来摄取大量数据,那么 就是为此而明确构建的。如果您不想编写大量代码,那么您也可以查看,它很好地集成到了 Hadoop 生态系统中。

    【讨论】:

    • 不管是什么来源,只要把不同类型的数据放到hdfs中,我要使用的工具必须有python代码
    • 如...?当您尝试加载到 HDFS 时遇到了哪些错误?
    • (.csv .json .txt ) 字段。我还使用 tweepy 从 twitter 收集了推文,但我找不到允许我将它们发送到 hdfs 的功能
    • Spark 可以读取所有这些并写入 hdfs。 tweepy 中没有一个。那只是一个 Twitter 客户端,与 Hadoop 无关……至少,您需要将其并行化为 Spark 数据帧。另见stackoverflow.com/questions/47926758/python-write-to-hdfs-file
    • 请先生,我尝试了 csv 文件然后我收到此错误:
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2023-03-25
    • 1970-01-01
    • 2015-10-29
    • 2013-11-17
    • 2016-10-25
    • 2018-07-13
    • 1970-01-01
    相关资源
    最近更新 更多