【问题标题】:What is difference between S3 and EMRFS?S3 和 EMRFS 有什么区别?
【发布时间】:2019-11-23 14:21:06
【问题描述】:

我不明白 S3 和 EMRFS 之间的细微差别。我们应该将 EMRFS 视为允许从 Hadoop 应用程序向 S3 写入/读取/读取的库和 API 的集合,还是更多?而this官方文档也无济于事。

【问题讨论】:

    标签: hadoop amazon-s3 hdfs amazon-emr


    【解决方案1】:

    EMRFS 是一个实现 hadoops FileSystem api 的库。 EMRFS 使 S3 看起来像 hdfs 或本地文件系统。然后它被 hadoop 生态系统中的许多应用程序使用,例如 spark 和 hive。例如,这就是您如何使用 EMRFS 在 spark 中从 S3 读取数据

    val df = spark.read.parquet("S3://s3-bucket/path/to/folder/")
    df.write.csv("s3://s3-bucket/path/to/output/")
    

    【讨论】:

    • 是的,我每天都在使用它。但是将 API 命名为文件系统是否正确。
    • 在 hadoop 中,实现的类称为“文件系统”。在某些情况下,它就像文件系统在其他情况下一样。
    【解决方案2】:

    主要优点是 emrfs 的一致性。它在内部使用 Dynamo db 来保持一致性。

    【讨论】:

      猜你喜欢
      • 2018-08-12
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2013-01-01
      • 2022-01-20
      • 2010-10-02
      • 2011-12-12
      相关资源
      最近更新 更多