显示来自两个不同表的两列之间的差异（比较表）答案

【问题标题】：Show the difference between two columns from two different tables (comparison table)显示来自两个不同表的两列之间的差异（比较表）
【发布时间】：2015-04-06 20:02:00
【问题描述】：

我有两个具有相同结构和几乎相同内容的表。主要区别在于一个值列可能与第二个表中的“等效”列不同。最重要的是，一条记录可能会出现在一个表中，但不会出现在另一个表中。

我的桌子：

Table1（idA、valueA、valueB、valueC（可空）、valueX）
Table2（idB、valueA、valueB、valueC（可空）、valueY）

想要的结果：

表3（值A、值B、值C、值X、值Y）

前提条件：

'id' 是主键，在两个表中可以不同
'valueC' 是唯一可以具有 null 值的列。但是，两个表中的值将相同。
如果记录出现在表 1 中但未出现在表 2 中，'valueY' 应为 null
如果记录出现在表 2 中但不在表 1 中，'valueX' 应为 null

例子：

表1
1 | 1001 | 2001 | 3001 | 100.0
2 | 1002 | 2002 | 3002 | 95.0
3 | 1003 | 2003 | (空) | 113.0
4 | 1004 | 2004 | 3004 | 75.0

表2
23 | 1001 | 2001 | 3001 | 100.0
24 | 1002 | 2002 | 3002 | 94.0
25 | 1003 | 2003 | (空) | 116.0
26 | 1005 | 2005 | 3005 | 32.0

期望的结果应该是：

表3
1001 | 2001 | 3001 | 100.0 | 100.0
1002 | 2002 | 3002 | 95.0 | 94.0
1003 | 2003 | (空) | 113.0 | 116.0
1004 | 2004 | 3004 | 75.0 | (空)
1005 | 2005 | 3005 | (空) | 32.0

我想我已经想出了一个解决方案，但它非常慢，我不确定这是否真的是最简单的方法。

SELECT valueA, valueB, valueC, valueX, valueY
FROM (
    (SELECT t1.valueA, t1.valueB, t1.valueC, t1.valueX, t2.valueY
    FROM Table1 t1
    LEFT JOIN Table2 t2
        ON t1.valueA = t2.valueA 
        AND t1.valueB = t2.valueB 
    WHERE t1.valueC = t2.valueC OR t1.valueC IS NULL OR t2.valueC IS NULL)
    UNION
    (SELECT t2.valueA, t2.valueB, t2.valueC, t1.valueX, t2.valueY
    FROM Table2 t2
    LEFT JOIN Table1 t1
        ON t1.valueA = t2.valueA 
        AND t1.valueB = t2.valueB 
    WHERE t1.valueC = t2.valueC OR t1.valueC IS NULL OR t2.valueC IS NULL)
    );

我希望有人能想出一个更“优雅”的解决方案。作为旁注，我使用的是 Oracle DB。提前感谢您的时间和帮助！

【问题讨论】：

如果两个表之间的 pk 可以不同，你如何匹配记录，即，你如何确定“一个记录可能出现在一个表中，但不能出现在另一个表中”
就我的目的而言，匹配基于值 A、B 和 C 的记录就足够了（此处的示例已简化，我的实际表有 7 列匹配）。因此，如果 A、B 和 C 匹配，我们可以假设它是相同的记录。如果其中一个没有，那就是不同的记录。因此，如果您在 table1 中有 ABC 值但在 table2 中没有匹配项，则 table2 中缺少它。
然后在 A、B 和 C 列上添加一个键。听起来这可能是一个“自然键”。如果你不能，由于重复而这样做，那么你不能“假设它们是相同的记录”
我想您可以将其视为“自然键”，但 C 可以为 null 除外。另一个问题是我不允许更改表，因为这是我的客户定义并在项目中使用的方式。
可以添加索引吗？如果是这样，请添加唯一索引。您可以在包含可为空属性的复合键上执行此操作，这将首先防止重复。

标签： sql oracle

【解决方案1】：

此查询提供所需的输出。我不知道它是否更优雅，但肯定更短;-)

select valueA, valueB, nvl(table1.valueC, table2.valueC) valueC, valueX, valueY 
  from table1
    full join table2 using (valueA, valueB)
  order by valueA

顺便说一句，您的查询只给出了 4 行，没有1004 | 2004 | 3004 | 75.0 | (null)，可能您的where 应该是：

where t1.valueC = t2.valueC OR t1.valueC IS NULL or t2.valueC IS NULL

而不是

WHERE t1.valueC = t2.valueC OR (t1.valueC IS NULL AND t1.valueC IS NULL)

重新设计的查询

select a, b, nvl(t1c, t2c) c, x, y
  from (
    select nvl(t1.valueA, t2.valueA) a, nvl(t1.valueB, t2.valueB) b, 
        t1.valueC t1c, t2.valueC t2c, valueX x, valueY y
      from table1 t1 
        full join table2 t2 on (t1.valueA = t2.valueA and t1.valueB = t2.valueB
          and ( t1.valueC = t2.valueC or (t1.valueC is null and t2.valueC is null) ) )
        )
  order by a, b, c

【讨论】：

我想这可能是答案。它绝对比我的查询短得多，速度快 5 倍。你对我的 where 子句也是正确的，我认为我在那里犯了一个错误（我已经用你的更正修改了这个问题）。奇怪的是，当您的查询返回 6438772 条记录时，我的返回 6879424。我希望这是由于我的查询中的另一个问题，我目前似乎看不到。
由于对valueC比较的误解而出现差异。你在主帖中的最后一条评论改变了一些事情。所以我修改了查询，我认为它可以根据所有条件工作。如果将行 (5, 1006, 2006, 3006, 101) 添加到 table1 并将 (27, 1006, 2006, null, 201) 添加到 table2，它会在 valueX 和 valueY 列中产生与您不同的结果，但我认为您不能从不匹配的行中获取这些值。
此外，如果您现在将 table2 中添加的行中的 valueC 从 null 更改为 3007，那么我的查询会给出 7 行结果，您的 - 5 行。我这样做是因为如果 ABC 上的行不匹配，那么我们会列出它们都没有加入。

【解决方案2】：

创建表c为（从表a中选择*减去从表B中选择*）联合（从表b中选择*减去从表A中选择*）

【讨论】：

谢谢，但不幸的是，这不起作用，因为它还连接了 ID 和 valueX 和 valueY 列，每个表中可能有不同的值。此外，它不会并列最后两列，这正是我所需要的。
如果您使用我的查询但选择较少的列？