【问题标题】:Identifying records with inconsistent relationships识别具有不一致关系的记录
【发布时间】:2019-02-19 14:23:23
【问题描述】:

您可以运行所有这些 SQL 并查看结果 here

  • 跳到结果和随之而来的问题,了解问题的实质。

我有一张俱乐部表(一个俱乐部,如一个团体或组织中的一个人,如“游泳俱乐部”或“针织俱乐部”)。

DECLARE @club TABLE (
   Id INT
   ,Name NVARCHAR(255)
   );
INSERT INTO @club VALUES
   (1, 'Swim Club')
   ,(2, 'Knitting Club')
   ,(3, 'Bridge Club');

我有一个成员表。

DECLARE @member TABLE (
   Id INT
   ,Name NVARCHAR(255)
   );
INSERT INTO @member VALUES
   (1, 'John Jones')
   ,(2, 'Sally Smith')
   ,(3, 'Rod Roosevelt')
   ,(4, 'Bobby Burns')
   ,(5, 'Megan Moore');

会员可以属于许多俱乐部,因此有一个会员表将俱乐部与会员联系起来(并且还描述了会费价格)。

DECLARE @membership TABLE (
   Id INT
   ,Member INT --FK to @member
   ,Club INT --FK to @club
   ,Dues INT --the cost of membership
   );
INSERT INTO @membership VALUES
   (1,1,1,10)
   ,(2,1,2,5)
   ,(3,2,1,10)
   ,(4,2,3,20)
   ,(5,3,1,10)
   ,(6,3,2,5)
   ,(7,4,2,5)
   ,(8,4,3,20)
   ,(9,5,1,10)
   ,(10,5,3,20);

大多数会员只需支付相关的会费。但是,有些会员是由其他会员赞助的。因此,这些赞助会员的会费将由另一个会员(赞助商)支付。因此,我们有一个赞助表。赞助表将赞助商(支付会费)连接到特定俱乐部的赞助商(由赞助商支付会费)。因为赞助是特定于俱乐部的,所以赞助记录连接两个会员记录,而不是两个会员记录。

DECLARE @sponsorship TABLE (
   Id INT
   ,Sponsee_Membership INT --FK to Sponsee's @membership record
   ,Sponsor_Membership INT --FK to Sponsor's @membership record
   );
INSERT INTO @sponsorship VALUES
   (1,5,1)
   ,(2,8,4)
   ,(3,9,3)
   ,(4,10,4);

为了全面了解我们的俱乐部/会员/赞助商,我们有:

SELECT
    mship.Id AS 'Mship'
    ,mem.Name AS 'Member'
    ,c.Name AS 'Club'
    ,mship.Dues
    ,spons_mem.Name AS 'Sponsor'
FROM
    @membership AS mship
    JOIN @member AS mem
        ON mship.Member = mem.Id
    JOIN @club AS c
        ON mship.Club = c.Id
    LEFT JOIN @sponsorship AS spons
        ON spons.Sponsee_Membership = mship.Id
    LEFT JOIN @membership AS spons_mship
        ON spons_mship.Id = spons.Sponsor_Membership
    LEFT JOIN @member AS spons_mem
        ON spons_mem.Id = spons_mship.Member;

这给了我们这些结果

Mship   Member        Club         Dues  Sponsor
  1   John Jones     Swim Club      10    NULL
  2   John Jones     Knitting Club   5    NULL
  3   Sally Smith    Swim Club      10    NULL
  4   Sally Smith    Bridge Club    20    NULL
  5   Rod Roosevelt  Swim Club      10    John Jones
  6   Rod Roosevelt  Knitting Club   5    NULL
  7   Bobby Burns    Knitting Club   5    NULL
  8   Bobby Burns    Bridge Club    20    Sally Smith
  9   Megan Moore    Swim Club      10    Sally Smith
 10   Megan Moore    Bridge Club    20    Sally Smith

赞助应涵盖所有共享会员。

  • 也就是说,如果 Sally 赞助 Bobby,任何时候他们都在同一个俱乐部,Sally 将被确定为 Bobby 的赞助商。
  • 我们可以在Mship=7Mship=8 行中看到这一点。
  • Bobby 和 Sally 都在 Bridge 俱乐部,因此 Sally 被确定为 Bobby 的 Bridge 俱乐部会员资格的赞助商。
  • Sally 不是 Knitting Club 的成员,因此 Bobby 的 Knitting Club 成员身份不会显示 Sally 作为赞助商。

抱歉,设置太长了。 这是我的实际问题

  • 如何确定缺少赞助的位置?
    在示例中,我们有行 Mship=5Mship=6
  • 约翰是罗德的赞助人。
  • 我们可以看到罗德游泳俱乐部会员的赞助。
  • 罗德和约翰也是针织俱乐部的成员,
  • Rod 并未将 John 作为其针织俱乐部会员资格的赞助商
  • 这是不正确的,这就是我所追求的
  • 我想查询所有这些缺失的赞助

我可以使用游标/WHILE 循环来完成此操作,但我知道此类解决方案通常不会采用适当的基于集合的方法。对此的正确查询是什么样的? 非常感谢。

【问题讨论】:

  • 问题出在你的数据模型上。您是否可以更改它,或者您是否必须使用此模型编写 SQL 解决方法?
  • 听起来赞助不应该是会员之间的一对一关系,而是俱乐部会员和赞助商之间的关系。您的表 sponsorship 需要一个额外的列(它链接到的俱乐部)。
  • 再举一个例子,让我们以 3 个成员和 3 个俱乐部为例。珍妮、简和约翰以及国际象棋、网球和读书俱乐部。 John 属于所有 3,但 Jenny 只属于 Book and Tennis,而 Jane 只属于 Chess and Book。珍妮和简都是约翰的赞助商,这对国际象棋和网球俱乐部来说是有意义的,但读书俱乐部呢?你有“双重泡沫”吗? :)
  • 是的,问题的根源在于数据模型。不幸的是,这无法修改。这种次优数据结构会产生一致的数据清理量。这个问题是关于定期运行的许多必需的清理查询之一。
  • @JClark 谢谢澄清。很高兴你找到答案。希望我整理您的问题/添加 rextester 和要点能让其他人更容易提供帮助!

标签: sql sql-server tsql


【解决方案1】:

这是一个可能响应您的要求的 SQL 查询。

逻辑是使用子查询,根据映射member.id而不是memberships.id,生成赞助商和赞助商之间的映射;为此,我们使用聚合。然后,外部查询搜索赞助商和被赞助商都参与但在赞助表中未声明任何关系的俱乐部

该查询为每个违规成员返回一条记录,其中包含赞助商和赞助商名称。

SELECT mship1.Id, m1.Name Member, m2.Name Sponsor, c.Name Club, mship1.Dues
FROM 
    @membership mship1
    INNER JOIN @club c ON c.Id = mship1.Club
    INNER JOIN (
        SELECT ms1.Member Sponsee_Member , MAX(ms2.Member) Sponsor_Member
        FROM @sponsorship ss
        INNER JOIN @membership ms1 ON ms1.Id = Sponsee_Membership
        INNER JOIN @membership ms2 ON ms2.Id = Sponsor_Membership
        GROUP BY ms1.Member
    ) rels ON rels.Sponsee_Member = mship1.Member
    INNER JOIN @membership mship2 ON mship2.Member = rels.Sponsor_Member AND mship2.Club = mship1.Club
    INNER JOIN @member m1 ON m1.Id = mship1.Member
    INNER JOIN @member m2 ON m2.Id = mship2.Member
    LEFT JOIN @sponsorship sship  ON sship.Sponsor_Membership = mship2.Id
WHERE sship.Id IS NULL
;

the rextester that you provided 中,返回:

Id   | Member          | Sponsor      | Club           | Dues
-----|-----------------|--------------|----------------|-----
6    | Rod Roosevelt   | John Jones   | Knitting Club  | 5

创建这个查询让我想到你可以优化你的数据库设计。当前的模型将难以保持一致性:您的问题本身就证明了这一点。将来,如果赞助商在他的赞助人之一已经参加的新俱乐部注册会发生什么?再次,您需要检测丢失的sponshorship 关系,并以某种方式创建它。

您实际上在赞助商和赞助商之间建立了 1-1 的关系,因为您声明赞助应该跨越所有共享的会员资格。看起来您不允许赞助商拥有多个赞助商,即使跨不同的俱乐部也是如此。

我建议您删除sponshorship 表并将赞助商的自外键直接存储在成员表中。从那里开始,很容易检查两个成员的共同俱乐部,并使用 SQL 查询正确分配会费。

【讨论】:

  • 谢谢,这很好用。您对数据模型的评论是完全准确的。不幸的是,我无权修改它。
  • @JClark 欢迎您!如果您认为我的回答正确回答了您的问题,请考虑upvoting and accepting it...谢谢!
【解决方案2】:

我发现我可以在一个查询中收集此信息,方法是收集所有具有 CTE 的赞助关系,找到所有应该拥有赞助的会员资格,然后删除所有现有赞助,但不包括。我只剩下应该存在但不存在的赞助。

WITH sponsored_relationships AS (
    SELECT DISTINCT
        sponsee_member.Id AS Sponsee
        ,sponsor_member.Id AS Sponsor
    FROM
        @sponsorship AS s
        JOIN @membership AS sponsee_mship
            ON s.Sponsee_Membership = sponsee_mship.Id
        JOIN @member AS sponsee_member
            ON sponsee_mship.Member = sponsee_member.Id
        JOIN @membership AS sponsor_mship
            ON s.Sponsor_Membership = sponsor_mship.Id
        JOIN @member AS sponsor_member
            ON sponsor_mship.Member = sponsor_member.Id
    )
SELECT
    see_mem.Name AS Sponsee
    ,sor_mem.Name AS Sponsor
    ,c.Name AS Club
FROM
    sponsored_relationships AS sr
    JOIN @member AS see_mem
        ON sr.Sponsee = see_mem.Id
    JOIN @membership AS see_mship
        ON see_mship.Member = see_mem.Id
    JOIN @member AS sor_mem
        ON sr.Sponsor = sor_mem.Id
    JOIN @membership AS sor_mship
        ON sor_mship.Member = sor_mem.Id
    JOIN @club AS c
        ON (see_mship.Club = c.Id
            AND sor_mship.Club = c.Id
            )
EXCEPT
SELECT
    see_mem.Name AS Sponsee
    ,sor_mem.Name AS Sponsor
    ,c.Name AS Club
FROM
    sponsored_relationships AS sr
    JOIN @member AS see_mem
        ON sr.Sponsee = see_mem.Id
    JOIN @membership AS see_mship
        ON see_mship.Member = see_mem.Id
    JOIN @member AS sor_mem
        ON sr.Sponsor = sor_mem.Id
    JOIN @membership AS sor_mship
        ON sor_mship.Member = sor_mem.Id
    JOIN @club AS c
        ON (see_mship.Club = c.Id
            AND sor_mship.Club = c.Id
            )
    JOIN @sponsorship AS sship
        ON (sship.Sponsee_Membership = see_mship.Id
            AND sship.Sponsor_Membership = sor_mship.Id
            );

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2023-03-24
    • 1970-01-01
    • 2010-10-20
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多