摘要 在本文中,我们处理不精确的时间数据上基于规则的实体解析问题。实体分辨(ER)在研究社区中得到了广泛的探索,但是关于时态数据的问题,尤其是没有可用时间戳的问题,尚未得到很好的研究。由于时间的流逝,引用在不同时间段内观察到的同一实体的记录可能会有所不同。除了传统的基于相似度的ER方法外,通过仔细研究几种数据质量规则(例如匹配依赖项和数据时效),可以获得大量信息以帮助解决此问题。在本文中,我们使用这样的规则来导出时间记录的时间顺序信息以及其属性随着时间的流逝而演变的趋势。具体来说,我们首先将记录块分成较小的块,然后通过探索数据时效约束,我们提出了一种具有两个步骤的时间聚类方法,即骨架聚类和带状聚类。对真实数据和合成数据的实验结果表明,我们的实体解析方法可以对具有隐藏时间信息的数据集实现高精度和高效率。
1. 介绍
从以上场景中可以明显看出,时间数据的实体解析非常重要且有趣,这也带来了挑战,即必须确定在不同时期引用同一实体的记录,而这些记录具有完全不同甚至相反的描述。 已经研究了许多直接相似度比较实体解析方法来解决实体解析问题[1],但是,在某些情况下,这种方法可能无法实现,如示例1所示。
关于不精确时间数据的实体解析
对于男性,LN的权重很大,因为LN一般不变
没有时间戳的话,这种趋势是不准确的,所以需要发现隐藏的时间信息
动态权重,而不是固定值
根据matching dependency 聚类
3 属性的不稳定性
3.1 定义
根据定义,如果属性的不稳定度高于预定义的临界值,则引用相同实体的记录更有可能见证该属性值在时间间隔内的演变。 因此,这种不稳定的属性无法有效地区分实体。 在评估成对记录相似性时,这些不稳定的属性将被赋予较低的权重。 结果,对于具有高不稳定系数的属性,两个记录之间的低成对相似性并不意味着对不同实体的强指示,同样,高相似性并不意味着对相同实体的强指示。 对于不稳定度较低的属性,相似度较低确实表示记录引用了不同的实体,而较高的相似性表示可以引用的是同一实体。
3.2 计算
具体来说,属性不稳定可以由领域专家设计或从数据集中学习。为了计算不稳定,需要定义时间区间
记录可以被分组
第一步:根据currency order分组S={S1,,Sm},同一个order的一个组,Sj的数据比Si的更新(i<j),认为同一个分组里的,是同一个时间观察到的数据,不同组里的数据有时间间隔。对于属性Ak,有m个有效值域{S1.Ak,S2.Ak…}
属性丰富度:给定时间跨度内(ti->tj),Ak的所有值两两一对的不相似度的和
计算属性丰富度和不稳定性的公式如下:
4 聚类分析
4.1 根据规则前处理
首先,根据negtiveMD 分组
比如:
Gender的值域有2个,male和female,Gender为male的为一组,female的一组
排除
用时态约束进行排除
对于一对值(ri,rj)如果符合一个currency contraints,则这个pair的order score就增加,否则会减少。如果这个pair的order是一致的,则它的order score应该等于Tk的数量,否则就要被排除
4.2 skeleton clustering
对于每一组pair(ri,rj),如果是之前排除的,则(—)边,如果相似度大于阈值,则ri和rj之间有一个(+)的边,有(+)边相连的为一个cluster
4.3 cluster merging 聚类合并
在4.2中,一些相同的实体可能会被分到不同的cluster里,为了防止数据演化的负面影响,对cluster进行合并
先识别出单例cluster,可以得到小但是更准确的后选cluster
4.3.1 识别单例
将单例cluster的唯一的record与每个候选cluster计算相似度,如果低于指定下界,则这个record为一个新的候选,如果高于上界,则与相似度最大的合并
4.3.2 计算相似度(难以理解)
因为数据演化,所以计算时间相近的 r和C,因此将C里的record按时间递增排序,相同时间的分为一组,比如c里面有m个记录,把m个记录分到n个子集R1,…,Rn,Ri里的所有记录有相同时间点To[Ri]。那么C开始时间Ts[C]就是To[Ri],结束时间Te[C]是To[Rn].
现在,需要找到满足To[Rl]≤To[r]<To[Rl+1](l<n),通过Rl,C可以被分为祖先集和子孙集2个候选集CA={R1,…,Rl}和CB={Rl+1,…,Rn},通过计算sim(r,CA)和sim(r,CB)l来得到sim(r,C).
为了计算sim(r,CA),我们要计算r和CA里最近记录的关系。我们将CA的最新记录作为CA的签名。为了有效地确定CA的签名,我们需要确定并维护CA的每个元素的签名。 所有这些元素的签名构成一组候选记录,以确定CA的签名。
对于CA中的每个Ri,rj是Ri的一个记录,P(rj)代表rj和C的banding概率,每个Ri都有一个Ri,由Ri的binding probability最高的记录组成。seed record的banding概率是1.
5 实验
数据集
NBA DBLP Euro-Patent