【发布时间】:2016-11-05 03:37:44
【问题描述】:
我了解 spark 在并行和内存中处理大规模数据方面的优势。
但是,当从 S3 读取/写入数据时,它如何不会在读取/写入 S3 方面遇到瓶颈。这是否由 S3 存储服务以某种有效的形式处理? S3 是分布式存储吗?请提供一些解释,如果可能的话,请提供有关如何了解更多信息的链接。
【问题讨论】:
-
有趣,我总是问自己为什么他们这么慢:)
-
哈哈。我的意思是与非分布式存储系统相比,其中硬盘的 I/O 速率是一个巨大的瓶颈。
标签: amazon-web-services apache-spark amazon-s3 amazon