【发布时间】:2012-09-15 03:50:53
【问题描述】:
我正在考虑合并(和重复数据删除)多个产品目录的策略。
我将使用 no-sql 数据库,并且需要查询 N 个目录部分重叠的产品。
分类、标签、描述等某些方面需要规范化,我需要跟踪哪些目录包含每个独特的项目(产品重复数据删除在每个目录中,例如按 UPC)。
我目前的想法是将各个目录导入到自己的目录中 表,然后使用自建算法来识别“相似”项目, 执行规范化,然后创建一个最终的“主”表 包含规范化和去重的数据 - (主记录 值将从它所在的任何目录或目录组合中复制 从中选择并包含指向包含该项目的目录的链接)。
我想知道关于这个主题还有哪些其他想法?我应该研究哪些研究领域来更好地教育自己?
【问题讨论】:
-
重复数据删除和规范化是适用于关系数据库的概念,不能很好地转化为 NoSQL。请记住,NoSQL 实现不支持连接,这使得查询完全规范化的数据变得极其困难。
-
我认为您在关系数据库中使用重复数据删除和规范化的术语。在这种情况下,产品目录的重复数据删除和分类等功能的规范化是更高级别的概念,与 SQL 模式的严格租户无关。之所以考虑 NoSQL 方法,主要是因为需要在大型数据集上执行一些更大的聚类、分类和/或推荐算法。在我目前的想法中,为了有效地适应 NoSQL DB 模型,实际上会有相当多的数据重复。
标签: database-design architecture duplicates hbase record-linkage