【问题标题】:Query with three join incredibly slow三个连接的查询非常慢
【发布时间】:2019-03-17 12:02:58
【问题描述】:

我正在尝试返回所有在特定date 中拥有足球matches 的国家/地区。数据定义在下表中:

比赛

id | country_id | name 
50       1         Premier League

competition_seasons

id | competition_id | name
 70       50          2019

competition_rounds

id | season_id | name 
 58       70      Regular Season

匹配

id | round_id | home | away | result | datetime
 44      58       22     87     1 - 0  2019-03-16:00:00

competition表中存储了不同的比赛,那么每个比赛可以有多个season存储在competition_seasons中。一个season也可以有不同的竞争rounds,这些都存储在competition_rounds中。

所有matches 都存储在match 表中,并为round_id 分组。

我为 API 编写了这个方法:

$app->get('/country/get_countries/{date}', function (Request $request, Response $response, array $args)
{
  $start_date = $args["date"] . " 00:00";
  $end_date = $args["date"] . " 23:59";

  $sql = $this->db->query("SELECT n.* FROM country n
    LEFT JOIN competition c ON c.country_id = n.id
    LEFT JOIN competition_seasons s ON s.competition_id = c.id
    LEFT JOIN competition_rounds r ON r.season_id = s.id
    LEFT JOIN `match` m ON m.round_id = r.id
    WHERE m.datetime BETWEEN '" . $start_date . "' AND '" . $end_date . "'
    GROUP BY n.id");

  $sql->execute();
  $countries = $sql->fetchAll();
  return $response->withJson($countries);
});

有上千条按id组织的记录,但是查询大约需要6、7秒才能返回所有在指定日期播放的countries

如何优化这个过程?

性能

更新

如果我注意到了一件有趣的事情:

SELECT round_id, DATE("2019-03-18") FROM `match`

查询速度非常快,所以我猜datetime 字段会减慢连接部分的速度,你知道吗?

表结构

CREATE TABLE IF NOT EXISTS `swp`.`competition` (
  `id` INT NOT NULL,
  `country_id` INT NULL,
  `name` VARCHAR(255) NULL,
  `category` INT NULL,
  PRIMARY KEY (`id`),
  INDEX `id_idx` (`country_id` ASC),
  INDEX `FK_competition_types_competition_type_id_idx` (`category` ASC),
  CONSTRAINT `FK_country_competition_country_id`
    FOREIGN KEY (`country_id`)
    REFERENCES `swp`.`country` (`id`)
    ON DELETE NO ACTION
    ON UPDATE NO ACTION,
  CONSTRAINT `FK_competition_categories_competition_category_id`
    FOREIGN KEY (`category`)
    REFERENCES `swp`.`competition_categories` (`id`)
    ON DELETE NO ACTION
    ON UPDATE NO ACTION)
ENGINE = InnoDB;


CREATE TABLE IF NOT EXISTS `swp`.`competition_seasons` (
  `id` INT NOT NULL AUTO_INCREMENT,
  `competition_id` INT NOT NULL,
  `season_id` INT NULL,
  `name` VARCHAR(45) NOT NULL,
  `update_at` DATETIME NULL,
  PRIMARY KEY (`id`),
  INDEX `FK_competition_competition_seasons_competition_id_idx` (`competition_id` ASC),
  CONSTRAINT `FK_competition_competition_seasons_competition_id`
    FOREIGN KEY (`competition_id`)
    REFERENCES `swp`.`competition` (`id`)
    ON DELETE NO ACTION
    ON UPDATE NO ACTION)
ENGINE = InnoDB;

CREATE TABLE IF NOT EXISTS `swp`.`competition_rounds` (
  `id` INT NOT NULL AUTO_INCREMENT,
  `round_id` INT NULL,
  `season_id` INT NOT NULL,
  `name` VARCHAR(255) NULL,
  PRIMARY KEY (`id`),
  INDEX `FK_competition_seasons_competition_rounds_season_id_idx` (`season_id` ASC),
  CONSTRAINT `FK_competition_seasons_competition_rounds_season_id`
    FOREIGN KEY (`season_id`)
    REFERENCES `swp`.`competition_seasons` (`id`)
    ON DELETE NO ACTION
    ON UPDATE NO ACTION)
ENGINE = InnoDB;

-- -----------------------------------------------------
-- Table `swp`.`match`
-- -----------------------------------------------------
CREATE TABLE IF NOT EXISTS `swp`.`match` (
  `id` INT NOT NULL,
  `round_id` INT NOT NULL,
  `group_id` INT NULL,
  `datetime` DATETIME NULL,
  `status` INT NULL,
  `gameweek` INT NULL,
  `home_team_id` INT NULL,
  `home_team_half_time_score` INT NULL,
  `home_team_score` INT NULL,
  `home_extra_time` INT NULL,
  `home_penalties` INT NULL,
  `away_team_id` INT NULL,
  `away_team_half_time_score` INT NULL,
  `away_team_score` INT NULL,
  `away_extra_time` INT NULL,
  `away_penalties` INT NULL,
  `venue_id` INT NULL,
  `venue_attendance` INT NULL,
  `aggregate_match_id` INT NULL,
  PRIMARY KEY (`id`),
  INDEX `home_team_id_idx` (`home_team_id` ASC),
  INDEX `away_team_id_idx` (`away_team_id` ASC),
  INDEX `venue_id_idx` (`venue_id` ASC),
  INDEX `match_status_id_idx` (`status` ASC),
  INDEX `FK_competition_rounds_match_round_id_idx` (`round_id` ASC),
  INDEX `FK_match_match_aggregate_match_id_idx` (`aggregate_match_id` ASC),
  INDEX `FK_competition_groups_match_group_id_idx` (`group_id` ASC),
  CONSTRAINT `FK_team_match_home_team_id`
    FOREIGN KEY (`home_team_id`)
    REFERENCES `swp`.`team` (`id`)
    ON DELETE NO ACTION
    ON UPDATE NO ACTION,
  CONSTRAINT `FK_team_match_away_team_id`
    FOREIGN KEY (`away_team_id`)
    REFERENCES `swp`.`team` (`id`)
    ON DELETE NO ACTION
    ON UPDATE NO ACTION,
  CONSTRAINT `FK_venue_match_venue_id`
    FOREIGN KEY (`venue_id`)
    REFERENCES `swp`.`venue` (`id`)
    ON DELETE NO ACTION
    ON UPDATE NO ACTION,
  CONSTRAINT `FK_match_status_match_status_id`
    FOREIGN KEY (`status`)
    REFERENCES `swp`.`match_status` (`id`)
    ON DELETE NO ACTION
    ON UPDATE NO ACTION,
  CONSTRAINT `FK_competition_rounds_match_round_id`
    FOREIGN KEY (`round_id`)
    REFERENCES `swp`.`competition_rounds` (`id`)
    ON DELETE NO ACTION
    ON UPDATE NO ACTION,
  CONSTRAINT `FK_match_match_aggregate_match_id`
    FOREIGN KEY (`aggregate_match_id`)
    REFERENCES `swp`.`match` (`id`)
    ON DELETE NO ACTION
    ON UPDATE NO ACTION,
  CONSTRAINT `FK_competition_groups_match_group_id`
    FOREIGN KEY (`group_id`)
    REFERENCES `swp`.`competition_groups` (`id`)
    ON DELETE NO ACTION
    ON UPDATE NO ACTION)
ENGINE = InnoDB;

【问题讨论】:

  • 为什么是左连接而不是内连接?毕竟,您想要一次匹配所有条件的记录
  • 使用准备好的语句。不要连接字符串。
  • @sfarzoso 。 . .表有多大(行)? datetime 的数据类型是什么?连接键的数据类型是否都相同?您可以在问题中添加此信息。
  • @GordonLinoff match 表为 527.1 Mb,competition_seasons 为 1.8Mb,competition 为 208 Kib,competition_rounds 为 4Mb
  • @sfarzoso 。 . .在您发布的说明计划中,第一个比较应该是>=,而不是<=

标签: mysql sql pdo slim


【解决方案1】:

首先,将查询写成:

SELECT n.*
FROM country n JOIN
     competition c
     ON c.country_id = n.id JOIN
     competition_seasons s
     ON s.competition_id = c.id JOIN
     competition_rounds r
     ON r.season_id = s.id JOIN
     `match` m
     ON m.round_id = r.id
WHERE m.datetime >= ? AND
      m.datetime < ?
GROUP BY n.id;

此处的更改相对较小,不会影响性能。但它们很重要:

  • JOIN 而不是 LEFT JOIN,因为您要求条件匹配。
  • 日期参数而不是修改查询字符串,因为这是个好主意。
  • &gt;=&lt; 用于比较,因为这适用于日期和日期时间。您需要在结束日期上增加 1 天,但不要使用时间部分。

然后,为了性能,您需要索引:

  • match(datetime, round_id)
  • competition_rounds(id, season_id)
  • competition_seasons(id, competition_id)
  • competition(id, country_id)
  • country(id)

其实第一个是最重要的。如果将各自的 id 列声明为主键,则不需要最后四个。

【讨论】:

  • 谢谢你的提示,我真的很感激,反正我看不出性能上有什么不同,有什么我可以做的吗?
  • @sfarzoso 。 . .假设您已经添加了索引,那么在没有GROUP BY 的情况下查询需要多长时间?我的假设是只有少数匹配满足日期条件,所以GROUP BY 应该很便宜。
  • 如果我删除 GROUP BY,我会得到重复的国家和相同的性能问题
  • @sfarzoso 。 . .这个简单的查询需要多长时间以及返回多少行? select count(*) from match m where m.datetime &gt;= ? and m.datetime &lt; ?
  • @sfarzoso 尝试使用 EXPLAIN 执行上述 SQL 并在此处发布结果。
【解决方案2】:

使用LEFT JOIN,查询只能从上到下执行,这意味着扫描最后一个表以查找前表中条目的每个产品。此外,在没有任何聚合的情况下使用 LEFT JOINGROUP BY 是没有意义的,因为它总是会返回所有国家/地区 ID。话虽如此,我会这样重写它:

SELECT DISTINCT
    c.country_id
FROM 
    competition c,
WHERE 

    EXISTS (
        SELECT 
            *
        FROM
            competition_seasons s,
            competition_rounds r,
            `match` m
        WHERE
            s.competition_id = c.id
            AND r.season_id = s.id
            AND m.round_id = r.id 
            AND m.datetime BETWEEN ...
    )

这将被我所知道的所有 RDB 正确优化。 请注意,(match.datetime, match.round_id) 上的 2 列索引 - 按此顺序,将对性能产生巨大影响。或者是写入速度是一个问题,建议至少在(match.datetime) 上使用单列索引。

关于字符串索引的重要说明:字符串比较在 RDB 中总是很奇怪。确保对日期时间列使用二进制排序规则或使用本机 DATETIME 格式。各种 RDB 可能无法在不区分大小写的列上使用索引。

请注意,我删除了 n 上的连接 - 只需添加另一个 PK 查找来检查国家/地区是否仍然存在于国家/地区表中。如果您没有任何 ON DELETE CASCADE 或其他确保数据一致性的约束,您可以将其重新添加,如下所示:

SELECT DISTINCT
    n.id
FROM 
    country n
WHERE 

    EXISTS (
        SELECT 
            *
        FROM
            competition c,
            competition_seasons s,
            competition_rounds r,
            `match` m
        WHERE
            c.country_id=n.id
            AND s.competition_id = c.id
            AND r.season_id = s.id
            AND m.round_id = r.id 
            AND m.datetime BETWEEN ...
    )

【讨论】:

  • 感谢您的回复,不幸的是,您的查询在我的数据库中真的很慢,花了大约 24 秒:imgur.com/a/1UHCdrT 正如您在我的问题中看到的那样,字段 datetime 是日期时间格式
  • 您可以发布您添加的索引吗? (SQL 或图像)。更好的是,表的整个 SQL(仅结构)。在 phpmyadmin 中使用导出功能。
  • 是的,我更新了问题,如果你在底部看到我添加了所有对查询感兴趣的表
  • 所以...我没有看到日期时间的任何索引。
  • 好的,但是如何在日期时间添加索引?这一步我不清楚
猜你喜欢
  • 1970-01-01
  • 2022-01-12
  • 2016-09-05
  • 2010-12-07
  • 2012-06-30
  • 2015-04-19
  • 2015-03-29
  • 1970-01-01
  • 2022-06-14
相关资源
最近更新 更多