【发布时间】:2018-07-15 10:52:24
【问题描述】:
我有一个“数据库选择”和架构问题。
用例:
- 客户将上传大型 .json 文件(或其他格式,如 .tsv,这无关紧要),其中每一行都是有关其客户的数据(例如姓名、地址等)
- 我们需要稍后流式传输此数据以对其进行处理并存储结果,这些结果也将是一些大文件,其中每一行都是关于每个客户的数据(大约与上传的文件)。
我的要求:
- 流式传输应该尽可能快(例如 > 1000 rps),并且我们可以让多个进程并行运行(针对多个客户端)
数据库应该是可扩展的和容错的。因为可以轻松上传许多 GB 的数据,所以如果存储空间不足,我应该很容易实现自动添加新的商品实例(使用 AWS)。
数据库应该有某种复制,因为我们不想丢失数据。
不需要索引,因为我们只是流式传输数据。
对于这个问题,您对数据库有什么建议?我们尝试将其上传到 Amazon S3 并让他们负责扩展等,但存在读取/流式传输缓慢的问题。
谢谢, 伊万
【问题讨论】:
-
您需要的是数据存储而不是数据库。即使是简单的 HDFS 也应该适合您的用例。您是在云端还是本地集群中寻找解决方案?
标签: database mongodb hadoop bigdata