【发布时间】:2019-11-23 14:21:06
【问题描述】:
我不明白 S3 和 EMRFS 之间的细微差别。我们应该将 EMRFS 视为允许从 Hadoop 应用程序向 S3 写入/读取/读取的库和 API 的集合,还是更多?而this官方文档也无济于事。
【问题讨论】:
标签: hadoop amazon-s3 hdfs amazon-emr
我不明白 S3 和 EMRFS 之间的细微差别。我们应该将 EMRFS 视为允许从 Hadoop 应用程序向 S3 写入/读取/读取的库和 API 的集合,还是更多?而this官方文档也无济于事。
【问题讨论】:
标签: hadoop amazon-s3 hdfs amazon-emr
EMRFS 是一个实现 hadoops FileSystem api 的库。 EMRFS 使 S3 看起来像 hdfs 或本地文件系统。然后它被 hadoop 生态系统中的许多应用程序使用,例如 spark 和 hive。例如,这就是您如何使用 EMRFS 在 spark 中从 S3 读取数据
val df = spark.read.parquet("S3://s3-bucket/path/to/folder/")
df.write.csv("s3://s3-bucket/path/to/output/")
【讨论】:
主要优点是 emrfs 的一致性。它在内部使用 Dynamo db 来保持一致性。
【讨论】: