【问题标题】:MySQL sporadic MATCH AGAINST behaviour with unique index具有唯一索引的 MySQL 零星 MATCH AGAINST 行为
【发布时间】:2017-07-24 13:14:00
【问题描述】:

向多表全文布尔搜索添加唯一键时,结果会在 3 个任意状态中的 1 个中循环,只有 1 个是正确的。

在检查下面的 sqlfiddle 时请记住这一点,因为查询最初可能会正常工作 - 在这种情况下,在左侧面板中添加空格然后重新构建并重新运行 - 然后它应该被破坏(但它非常容易出错)。

http://sqlfiddle.com/#!9/8d95ba/18

这是有问题的查询:

SELECT `i`.`item_id`, `g_a`.`alias` AS `group`, `i`.`name` AS `name`
  FROM `item` `i`
  JOIN `group_alias` `g_a` USING (group_id)
    WHERE
      MATCH (`g_a`.`alias`) AGAINST ('Mac*' IN BOOLEAN MODE)
    OR
      MATCH (`i`.`name`) AGAINST ('Mac*' IN BOOLEAN MODE);

足够简单。但是添加了以下唯一索引:

ALTER TABLE `item_with_unique` ADD UNIQUE INDEX `unique_item_group` (`group_id`, `name`)

结果在这三种状态之间任意循环:

  1. 所有行都像没有 WHERE 子句一样返回
  2. 返回别名匹配,就好像 WHERE 子句没有 OR 部分一样
  3. 返回正确的结果(根据我的经验,这是最罕见的)

行为似乎与它所处的这 3 种状态中的任何一种保持一致,直到查询以某种较小的方式(例如添加括号)或架构被重建 - 到那时它可能会改变。

这些是我在描述这种行为的 MySQL 文档中遗漏的某种限制吗?它是一个错误吗?还是我刚刚做了一些明显错误的事情?

Mysql 版本 5.6.35(撰写本文时的 sqlfiddle)。

Sqlfiddle 以防链接失效:

CREATE TABLE `group` (
  `group_id` INT UNSIGNED AUTO_INCREMENT PRIMARY KEY,
  `name` VARCHAR(256),
  FULLTEXT INDEX `search` (`name`)
) ENGINE = InnoDB;

CREATE TABLE `group_alias` (
  `group_id` INT UNSIGNED NOT NULL,
  `alias` VARCHAR(256),
  CONSTRAINT `alias_group_id`
    FOREIGN KEY (`group_id`)
    REFERENCES `group` (`group_id`),
  FULLTEXT INDEX `search` (`alias`)
) ENGINE = InnoDB;

CREATE TABLE `item` (
  `item_id` INT UNSIGNED AUTO_INCREMENT PRIMARY KEY,
  `group_id` INT UNSIGNED,
  `name` VARCHAR(255) NOT NULL,
  CONSTRAINT `item_group_id`
    FOREIGN KEY (`group_id`)
    REFERENCES `group` (`group_id`),
  FULLTEXT INDEX `search` (`name`)
) ENGINE = InnoDB;

CREATE TABLE `item_with_unique` LIKE `item`;
ALTER TABLE `item_with_unique` ADD UNIQUE INDEX `unique_item_group` (`group_id`, `name`);

INSERT INTO `group` (`group_id`, `name`) VALUES (1, 'Thompson');
INSERT INTO `group` (`group_id`, `name`) VALUES (2, 'MacDonald');
INSERT INTO `group` (`group_id`, `name`) VALUES (3, 'Stewart');

INSERT INTO `group_alias` (`group_id`, `alias`) VALUES (1, 'Tomson');
INSERT INTO `group_alias` (`group_id`, `alias`) VALUES (2, 'Something');
INSERT INTO `group_alias` (`group_id`, `alias`) VALUES (3, 'MacStewart');

INSERT INTO `item` (`item_id`, `group_id`, `name`) VALUES (1, 1, 'MacTavish');
INSERT INTO `item` (`item_id`, `group_id`, `name`) VALUES (2, 1, 'MacTavish; Red');
INSERT INTO `item` (`item_id`, `group_id`, `name`) VALUES (3, 2, 'MacAgnew');
INSERT INTO `item` (`item_id`, `group_id`, `name`) VALUES (4, 3, 'Spider');
INSERT INTO `item` (`item_id`, `group_id`, `name`) VALUES (5, 2, 'blahblah');

INSERT INTO `item_with_unique` SELECT * FROM `item`;


SELECT `i`.`item_id`, `g_a`.`alias` AS `group`, `i`.`name` AS `name`,
IF(MATCH (`g_a`.`alias`) AGAINST ('Mac*' IN BOOLEAN MODE), 1, 0) AS `group_match`,
IF(MATCH (`i`.`name`) AGAINST ('Mac*' IN BOOLEAN MODE), 1, 0) AS `item_match`
  FROM `item` `i`
  JOIN `group_alias` `g_a` USING (group_id)
    WHERE
      MATCH (`g_a`.`alias`) AGAINST ('Mac*' IN BOOLEAN MODE)
    OR
      MATCH (`i`.`name`) AGAINST ('Mac*' IN BOOLEAN MODE);

SELECT "Same query, using table with unique index (NOTE: sporadically this is actually correct, in such case, skip to bottom notes)";
SELECT `i`.`item_id`, `g_a`.`alias` AS `group`, `i`.`name` AS `name`,
IF(MATCH (`g_a`.`alias`) AGAINST ('Mac*' IN BOOLEAN MODE), 1, 0) AS `group_match`,
IF(MATCH (`i`.`name`) AGAINST ('Mac*' IN BOOLEAN MODE), 1, 0) AS `item_match`
  FROM `item_with_unique` `i`
  JOIN `group_alias` `g_a` USING (group_id)
    WHERE
      MATCH (`g_a`.`alias`) AGAINST ('Mac*' IN BOOLEAN MODE)
    OR
      MATCH (`i`.`name`) AGAINST ('Mac*' IN BOOLEAN MODE);

SELECT "Union of the two OR match conditions seperately (expected result from second query)";
SELECT `i`.`item_id`, `g_a`.`alias` AS `group`, `i`.`name` AS `name`,
IF(MATCH (`g_a`.`alias`) AGAINST ('Mac*' IN BOOLEAN MODE), 1, 0) AS `group_match`,
IF(MATCH (`i`.`name`) AGAINST ('Mac*' IN BOOLEAN MODE), 1, 0) AS `item_match`
  FROM `item_with_unique` `i`
  JOIN `group_alias` `g_a` USING (group_id)
    WHERE
      MATCH (`g_a`.`alias`) AGAINST ('Mac*' IN BOOLEAN MODE)
UNION
SELECT `i`.`item_id`, `g_a`.`alias` AS `group`, `i`.`name` AS `name`,
IF(MATCH (`g_a`.`alias`) AGAINST ('Mac*' IN BOOLEAN MODE), 1, 0) AS `group_match`,
IF(MATCH (`i`.`name`) AGAINST ('Mac*' IN BOOLEAN MODE), 1, 0) AS `item_match`
  FROM `item_with_unique` `i`
  JOIN `group_alias` `g_a` USING (group_id)
    WHERE
      MATCH (`i`.`name`) AGAINST ('Mac*' IN BOOLEAN MODE);

SELECT "Now rebuild the schema (add a newline somewhere so sqlfiddle thinks it has changed) and observe that the results of the second query.  It may take multiple attempts but it usually cycles between 3 states:";
SELECT "1: Returns ALL results as if there were no conditions (5 rows)";
SELECT "2: Returns results as if there were no second part to the OR condition (1 row)";
SELECT "3: Returns the correct results (rarely)";

【问题讨论】:

    标签: mysql full-text-search innodb unique-index sqlfiddle


    【解决方案1】:

    尝试在您的声明中使用IGNORE INDEX

    SELECT `i`.`item_id`, `g_a`.`alias` AS `group`, `i`.`name` AS `name`
      FROM `item` `i`
      IGNORE INDEX (unique_item_group)
      JOIN `group_alias` `g_a` USING (group_id)
        WHERE
          MATCH (`g_a`.`alias`) AGAINST ('Mac*' IN BOOLEAN MODE)
        OR
          MATCH (`i`.`name`) AGAINST ('Mac*' IN BOOLEAN MODE);
    

    MySQL 非常愚蠢地随机使用unique_item_group 也用于全文搜索。

    【讨论】:

      【解决方案2】:

      如果您有一个单词的名称和别名。您正在检查整个值或前导值。那么 FULLTEXT 就不是你需要的索引类型了。

      一个简单的INDEX(name)name LIKE 'Mac%' 会非常有效。

      如果您有一个包含很多单词的长词组,并且“MacDonald”可能在其中,那么FULLTEXTMATCH ... AGAINST 是正确的选择。 p>

      使用任一类型的索引,

      WHERE table1 ...
         OR table2 ...
      

      将是低效的。粗略地说,优化器必须执行“交叉连接”来获取两个表之间的所有行组合,然后查看其中哪些匹配一个或其他匹配/类似。

      也许您已经“过度规范化”了数据? namealias 不能在同一个表中吗?查询将更快,并且将有优化技术使其更快。只有 1K 行,你所拥有的会明显变慢;我的建议可以优化到数百万甚至数十亿行。

      【讨论】:

      • 关于效率低下的问题。首先,这只是一个示例数据集 - 全文是我正在寻找的。它也没有过度规范化,因为项目可以有多个别名。关于您对交叉连接的评论,这肯定会受到正在搜索的两个表之间现有的内部连接的限制,所以性能不会很差?我不明白为什么它必须在此之上交叉连接所有行,但我可能弄错了。
      • 请提供EXPLAIN SELECT ...——我认为它会显示一个交叉连接(通过说ALL和ALL)。问题在于两个表中的OR。我可以想象一个涉及UNION 的丑陋混乱(为了避免OR 并允许优化器在each 表上使用FULLTEXT),以及一些子查询将这些东西重新组合在一起。我要解决这个问题吗?
      • 你说得对,它确实显示了 ALL 和 ALL。然而,联合替代方案看起来并没有好多少,有 2 个全文和 3 个 ALL。我想我可能需要考虑一种完全不同的方法 - 感谢您引起我的注意。但是,我仍然对抽象的奇怪 mysql 行为感兴趣。
      • 我已经使用缓存表找到了一个更好的解决方案,因此所有全文索引都在同一个表上 - 再次感谢您的建议。
      • 请告诉我查询和解释;有些东西没有用;它不应该说全部。
      猜你喜欢
      • 2012-05-22
      • 1970-01-01
      • 1970-01-01
      • 2011-07-03
      • 2012-03-15
      • 2011-11-10
      • 1970-01-01
      • 1970-01-01
      • 2013-01-24
      相关资源
      最近更新 更多