【发布时间】:2008-11-25 07:37:17
【问题描述】:
我有一个真正的问题。
我有一个架构如下的数据库:
项目
- 身份证
- 说明
- 其他垃圾
标签
- 身份证
- 姓名
item2tag
- item_id
- tag_id
- 计数
基本上,每个项目最多被标记为 10 个事物,具有不同的计数。 items2tag中有50,000个项目和50,000个标签,大约有500,000个条目。给定一个项目,我想找到“最相似”的项目。
“最相似”是指具有最相似标签组合的项目......如果某件事“酷”是“有趣”的两倍,我想找到所有其他几乎“酷”是他们“有趣”的两倍。当然,这应该适用于 10 个标签,而不仅仅是 2 个。
有什么想法吗?
【问题讨论】:
标签: database tagging nearest-neighbor trigonometry