【发布时间】:2011-04-19 19:59:20
【问题描述】:
我正在为帐户管理系统上的滥用检测机制研究可能的架构。我想要的是根据表中的某些相关字段检测可能的重复用户。为了简化问题,假设我有一个包含以下字段的 USER 表:
Name
Nationality
Current Address
Login
Interests
很可能一个用户在这个表中创建了多条记录。此用户创建他/她的帐户可能存在某种模式。挖掘此表以标记可能重复的记录需要什么。另一个问题是规模。如果我们假设有一百万用户,那么在计算上将一个用户与其余用户进行匹配是不现实的。如果这些记录分布在不同地理位置的不同机器上会怎样?
我可以使用哪些技术来解决这个问题?我试图以与技术无关的方式提出这个问题,希望人们可以为我提供多种视角。
谢谢
【问题讨论】:
-
可能您正在搜索的是近似检测具有一些相似性参数的重复项,这是理论,也许它会对您有所帮助:www-cse.ucsd.edu/users/elkan/approxdup.ps
-
@dfens - 本文有一些有趣的结果。感谢分享。
-
不是一个真正的答案,但也许集群可以帮助你。这是一个活跃的研究主题,有很多论文......我有一种直觉告诉我“重复”应该以某种方式出现在同一个集群中。
-
@Matthieu M- 有没有在 RDBMS 上运行聚类算法的示例?
-
我恐怕不知道,希望更多有见识的人看看这个:)
标签: database algorithm search runtime data-mining