使用返回多行的 SELECT 子查询优化 SELECT IN () SQL 查询答案

【问题标题】：Optimizing SELECT IN () SQL query with SELECT subquery that returns many rows使用返回多行的 SELECT 子查询优化 SELECT IN () SQL 查询
【发布时间】：2016-04-12 16:42:42
【问题描述】：

我刚刚发现，由于某个 SQL 查询，我的应用中的一个页面加载速度非常慢。

我已阅读this document about subquery optimization，但它似乎概述了 MySQL 如何优化子查询，而不是我如何优化我的查询。我确实尝试了从文档中获得的一些想法，但无济于事。

这是我目前的慢查询。为了便于阅读，我简化了表名和列名：

SELECT
    a.one, a.two, a.three, a.four,
    b.*,
    a.id,
    b.id,
    c.one, c.id,
    d.one,
    f.one
FROM a
JOIN b ON a.id = b.a_id
JOIN c ON c.id = b.c_id
JOIN e ON b.e_id = e.id
JOIN d ON d.id = e.d_id
JOIN f ON f.id = b.f_id
WHERE a.id IN (
    SELECT a_id FROM b WHERE a_id IS NOT NULL AND g_id = 95
)

SELECT 子查询当前返回 750+ 行，我认为这会导致父查询延迟。整个查询需要 25 秒。

如何优化这个查询？

【问题讨论】：

g_id 在哪个表中？

标签： mysql sql optimization query-optimization

【解决方案1】：

在 5.6.5 之前，MySQL 不会实现子查询。这意味着对于连接上的每条记录，它将运行以下相关查询：

SELECT  1
FROM    b
WHERE   a_id IS NOT NULL
        AND g_id = 95
        /* optimizer added */
        AND a_id = a.id
LIMIT   1

，优化器添加了一个附加条件。

从 5.6.5 开始，MySQL 能够将IN 子查询的结果具体化到一个临时表中，并像任何其他表一样加入它。

如果您使用的是 5.6.5 之前的 MySQL，您可以尝试将您的条件重写为连接：

SELECT  a.one, a.two, a.three, a.four,
        b.*,
        a.id,
        b.id,
        c.one, c.id,
        d.one,
        f.one
FROM    (
        SELECT  DISTINCT a_id
        FROM    b
        WHERE   a_id IS NOT NULL
                AND g_id = 95
        ) bi
JOIN a ON a.id = bi.a_id
JOIN b ON a.id = b.a_id
JOIN c ON c.id = b.c_id
JOIN e ON b.e_id = e.id
JOIN d ON d.id = e.d_id
JOIN f ON f.id = b.f_id

当然也可以正确索引所有相关字段。

【讨论】：

我得到了你的建议，在最后添加了这个：WHERE b.g_id = 95，即我也需要过滤外部查询
出于好奇，WHERE EXISTS() 在 MySQL 上也能正常工作吗？
@deroby：会的，是的