MySql：多个左连接给出错误的输出答案

【问题标题】：MySql: Multiple Left Join giving wrong outputMySql：多个左连接给出错误的输出
【发布时间】：2012-05-03 12:45:05
【问题描述】：

我在查询中使用多个左连接时遇到了一点麻烦。有些表与左表具有一对一的关系，有些具有一对多的关系。查询如下所示：

Select 
    files.filename,
    coalesce(count(distinct case
                when dm_data.weather like '%clear%' then 1
                    end),
            0) as clear,
    coalesce(count(distinct case
                when dm_data.weather like '%lightRain%' then 1
                    end),
            0) as lightRain,
    coalesce(count(case
                when kc_data.type like '%bicycle%' then 1
                    end),
            0) as bicycle,
    coalesce(count(case
                when kc_data.type like '%bus%' then 1
                    end),
            0) as bus,
    coalesce(count(case
                when kpo_data.movement like '%walking%' then 1
                    end),
            0) as walking,
    coalesce(count(case
                when kpo_data.type like '%pedestrian%' then 1
                    end),
            0) as pedestrian
from
    files
        left join
    dm_data ON dm_data.id = files.id
        left join
    kc_data ON kc_data.id = files.id
        left join
    kpo_data ON kpo_data.id = files.id
where
    files.filename in (X, Y, Z, ........)
group by files.filename;

在这里，dm_data 表与“files”表具有一对一的关系（这就是我使用“distinct”的原因），而 kc_data 和 kpo_data 数据与“files”表具有一对多的关系. （kc_data 和 kpo_data 可以针对一个 files.id 有 10 到 20 行）。此查询工作正常。

当我添加另一个左连接和另一个一对多表 pd_markings 时出现问题（它可以针对一个 files.id 有 100 行）。

Select 
    files.filename,
    coalesce(count(distinct case
                when dm_data.weather like '%clear%' then 1
                    end),
            0) as clear,
    coalesce(count(distinct case
                when dm_data.weather like '%lightRain%' then 1
                    end),
            0) as lightRain,
    coalesce(count(case
                when kc_data.type like '%bicycle%' then 1
                    end),
            0) as bicycle,
    coalesce(count(case
                when kc_data.type like '%bus%' then 1
                    end),
            0) as bus,
    coalesce(count(case
                when kpo_data.movement like '%walking%' then 1
                    end),
            0) as walking,
    coalesce(count(case
                when kpo_data.type like '%pedestrian%' then 1
                    end),
            0) as pedestrian,
    **coalesce(count(case
                when pd_markings.movement like '%walking%' then 1
                    end),
            0) as walking**
from
    files
        left join
    dm_data ON dm_data.id = files.id
        left join
    kc_data ON kc_data.id = files.id
        left join
    kpo_data ON kpo_data.id = files.id
        left join
    **kpo_data ON pd_markings.id = files.id**
where
    files.filename in (X, Y, Z, ........)
group by files.filename;

现在所有的值都变成了彼此的倍数。有任何想法吗？？？

请注意，前两列返回 1 或 0 值。这实际上是期望的结果，因为一对一的关系表对于任何 files.id 只有 1 或 0 行，所以如果我不使用“Distinct”，那么结果值是错误的（我猜是因为其他表针对相同的 file.id 返回多于一行）不，不幸的是，我的表除了“文件”表之外没有自己的唯一 ID 列。

【问题讨论】：

标签： mysql

【解决方案1】：

您需要flatten the results您的查询，以获得正确的计数。

您说您的文件表与其他表之间存在一对多关系

如果SQL只有一个关键字LOOKUP而不是把所有的东西都塞进JOIN关键字中，应该很容易推断A表和B表是一对一的关系，使用JOIN会自动表示一对多。我跑题了。无论如何，我应该已经推断出您的文件与 dm_data 是一对多的；而且，针对 kc_data 的文件也是一对多的。 LEFT JOIN 又一次暗示第一张表和第二张表的关系是一对多的；虽然这不是确定的，但一些编码人员只是用LEFT JOIN 编写所有内容。您的查询中的 LEFT JOIN 没有任何问题，但是如果您的查询中有多个一对多表，那肯定会失败，您的查询将产生与其他行重复的行。

from
    files
        left join
    dm_data ON dm_data.id = files.id
        left join
    kc_data ON kc_data.id = files.id

因此，有了这些知识，您表明文件与 dm_data 是一对多的，而且与 kc_data 也是一对多的。我们可以得出结论，链接这些连接并将它们分组到一个整体查询中存在问题。

举个例子，如果你有三个表，分别是app(files), ios_app(dm_data), android_app(kc_data)，这就是ios的数据示例：

test=# select * from ios_app order by app_code, date_released;
 ios_app_id | app_code | date_released | price  
------------+----------+---------------+--------
          1 | AB       | 2010-01-01    | 1.0000
          3 | AB       | 2010-01-03    | 3.0000
          4 | AB       | 2010-01-04    | 4.0000
          2 | TR       | 2010-01-02    | 2.0000
          5 | TR       | 2010-01-05    | 5.0000
(5 rows)

这是你的 android 的数据：

test=# select * from android_app order by app_code, date_released;
.android_app_id | app_code | date_released |  price  
----------------+----------+---------------+---------
              1 | AB       | 2010-01-06    |  6.0000
              2 | AB       | 2010-01-07    |  7.0000
              7 | MK       | 2010-01-07    |  7.0000
              3 | TR       | 2010-01-08    |  8.0000
              4 | TR       | 2010-01-09    |  9.0000
              5 | TR       | 2010-01-10    | 10.0000
              6 | TR       | 2010-01-11    | 11.0000
(7 rows)

如果你只使用这个查询：

select x.app_code, 
    count(i.date_released) as ios_release_count, 
    count(a.date_released) as android_release_count
from app x
left join ios_app i on i.app_code = x.app_code
left join android_app a on a.app_code = x.app_code
group by x.app_code
order by x.app_code

输出将是错误的：

 app_code | ios_release_count | android_release_count 
----------+-------------------+-----------------------
 AB       |                 6 |                     6
 MK       |                 0 |                     1
 PM       |                 0 |                     0
 TR       |                 8 |                     8
(4 rows)

您可以将链式连接视为笛卡尔积，因此如果您在第一个表上有 3 行，在第二个表上有 2 行，则输出将为 6

这是可视化，看到每个 ios AB 都有 2 个重复的 android AB。有 3 个 ios AB，那么当你做 COUNT(ios_app.date_released) 时计数是多少？那将变成6；与COUNT(android_app.date_released) 相同，这也是 6。同样，每个 ios TR 有 4 个重复的 android TR，在 ios 中有 2 个 TR，所以我们的计数是 8。

.app_code | ios_release_date | android_release_date 
----------+------------------+----------------------
 AB       | 2010-01-01       | 2010-01-06
 AB       | 2010-01-01       | 2010-01-07
 AB       | 2010-01-03       | 2010-01-06
 AB       | 2010-01-03       | 2010-01-07
 AB       | 2010-01-04       | 2010-01-06
 AB       | 2010-01-04       | 2010-01-07
 MK       |                  | 2010-01-07
 PM       |                  | 
 TR       | 2010-01-02       | 2010-01-08
 TR       | 2010-01-02       | 2010-01-09
 TR       | 2010-01-02       | 2010-01-10
 TR       | 2010-01-02       | 2010-01-11
 TR       | 2010-01-05       | 2010-01-08
 TR       | 2010-01-05       | 2010-01-09
 TR       | 2010-01-05       | 2010-01-10
 TR       | 2010-01-05       | 2010-01-11
(16 rows)

因此，您应该先将每个结果展平，然后再将它们连接到其他表和查询。

如果您的数据库能够进行 CTE，请使用。它非常整洁且非常自我记录：

with ios_app_release_count_list as
(
 select app_code, count(date_released) as ios_release_count
 from ios_app
 group by app_code
)
,android_release_count_list as
(
 select app_code, count(date_released) as android_release_count 
 from android_app 
 group by app_code  
)
select
 x.app_code, 
 coalesce(i.ios_release_count,0) as ios_release_count, 
 coalesce(a.android_release_count,0) as android_release_count
from app x
left join ios_app_release_count_list i on i.app_code = x.app_code
left join android_release_count_list a on a.app_code = x.app_code
order by x.app_code;

如果您的数据库还没有 CTE 功能，例如 MySQL，您应该这样做：

select x.app_code, 
 coalesce(i.ios_release_count,0) as ios_release_count, 
 coalesce(a.android_release_count,0) as android_release_count
from app x
left join
(
 select app_code, count(date_released) as ios_release_count
 from ios_app
 group by app_code
) i on i.app_code = x.app_code
left join
(
 select app_code, count(date_released) as android_release_count 
 from android_app 
 group by app_code   
) a on a.app_code = x.app_code
order by x.app_code

该查询和 CTE 样式的查询将显示正确的输出：

 app_code | ios_release_count | android_release_count 
----------+-------------------+-----------------------
 AB       |                 3 |                     2
 MK       |                 0 |                     1
 PM       |                 0 |                     0
 TR       |                 2 |                     4
(4 rows)

现场测试

查询错误：http://www.sqlfiddle.com/#!2/9774a/2

正确查询：http://www.sqlfiddle.com/#!2/9774a/1

【讨论】：

感谢您的精彩解释。
您的查询现在怎么样了？你能一点点解决吗？ :-)
感谢您的精彩解释。不，MySql 不支持 CTE 样式的查询。所以我会接受另一个建议。其他人也在另一篇文章中提出了相同的解决方案，但我试图避免使用这些“子查询”左连接，因为连接表本身包含大量数据，我认为这些数据会减慢查询执行速度。但我现在似乎没有其他选择。另一件事，在这种情况下我们如何使用“with rollup”？
我不太使用 ROLLUP，我制作的大多数报告都是开箱即用的功能，例如Crystal Report，它完美地促进了结果汇总之类的事情，尽管我确保已经将汇总结果传递给 CR，并且只是将汇总委托给 CR，因此 CR 不会陷入大数据的困境。尝试在您的 MySQL 浏览器或 sqlfiddle.com 中用小数据模拟 ROLLUP。用小数据做，分析行为。我不知道 ROLLUP 的细微差别是什么 :-)

【解决方案2】：

我在这里质疑您的不同用法 - 它的编写方式将返回 1 或 0。这意味着不同的计数只会返回 0、1 或 2。

我假设您的每个表中都有唯一的 ID 列。您可以更改大小写以返回 ID 值，然后计算不同的值。如果您的联接从您的 pd_markings 表返回多个相同的行，则 ID 上的不同计数将返回，嗯，仅返回不同的行数。

【讨论】：

是的，关于 1 或 0 返回值是这样。这实际上是期望的结果，因为一对一的关系表对于任何 files.id 都只有 1 或 0 行，所以如果我不使用“Distinct”，那么结果值是错误的（我猜是因为其他表针对同一 file.id 返回超过一行）不，不幸的是，我的表没有自己的唯一 ID 列，除了“文件”表。