【发布时间】:2017-07-24 22:31:45
【问题描述】:
我目前正在构建一个 Web 应用程序,每个客户都可以创建多个项目。对于每个项目,用户将上传数千行数据(1,000-50,000),我们称它们为“帖子”。
是创建一个每行包含其项目 ID 的单个项目数据库、为每个客户创建一个每行包含其项目 ID 的数据库还是每个项目一个数据库更好。
“更好”被定义为更好的性能和扩展能力。每个项目的所有帖子都将用于具有数千个特征(5,000-10,000)的机器学习算法,并显示给用户以标记为正面或负面。我们还没有决定一个数据库。
【问题讨论】:
-
您能否更具体地说明您计划对数据读取或写入执行哪些查询?第一步似乎是“繁重”的写入工作来插入数据,如果可能的话,分批插入。您使用的是 MongoDB、PostgreSQL 等什么数据库?
-
@RistoNovik 已添加信息。
-
感谢您提供的附加信息,因为它似乎不是通常的 CRUD 应用程序,更像是添加数据然后忘记。 “帖子”数据只是上传而不更新吗?如果是这样并且数据是非结构化的,为什么不存储在压缩的 CSV 文件中?
-
@RistoNovik 将向用户显示的所有数据将用于训练 ML 模型,作为模型的输入提交,更新和导出。数据是结构化的。
标签: database database-design architecture scalability