INSERT IGNORE 在 mysql 模式下使用 h2 引发主键冲突答案

【问题标题】：INSERT IGNORE throws primary key violation using h2 in mysql modeINSERT IGNORE 在 mysql 模式下使用 h2 引发主键冲突
【发布时间】：2019-11-08 17:22:43
【问题描述】：

我正在将 Scopus 数据抓取到 h2 文件数据库中。数据中有超过 46,000,000 条记录，每条记录都被视为不同的，这意味着重复了数百 GB 的数据（因此是关系数据库）。为了减少所有这些数据的插入时间，我最初创建了一组没有约束的临时表，然后使用 SELECT DISTINCT 和 GROUP BY 将数据复制到真实表中以强制唯一性。

对此的一个例外是文档表和参考文档表。由于数据的格式，我可以保证每条记录代表一个唯一的文档，所以我可以只插入到文档表中，然后只连接引用文档表中的行，这些行的 ID 还没有在文档表中。

以下是相关代码：

CREATE TABLE document (docid varchar NOT NULL, title varchar, abstract varchar, docType varchar NULL, ref boolean);

CREATE TABLE refdoc (refid varchar NOT NULL, title varchar);

INSERT INTO document (docid, title, abstract, docType, ref)
VALUES ('2-s2.0-0000098715', 'title', 'abstract', 'ab', 'false');

INSERT INTO refdoc (refid, title)
VALUES ('2-s2.0-0000098715', 'title'),
VALUES ('2-s2.0-33947184743', 'title');

ALTER TABLE document
ADD PRIMARY KEY (docid);

ALTER TABLE document
ADD FOREIGN KEY (docType) REFERENCES doctype(abbrev);

INSERT IGNORE INTO document (docid, title, ref)
SELECT refid, title, 'true' FROM refdoc;

创建文档表
创建参考文档表
在文档表中插入一条记录
在 refdoc 表中插入两条记录，包括重复记录
使用主键更改文档表
使用外键更改文档表
插入 refdoc 中与文档不冲突的行

INSERT IGNORE 查询抛出：org.h2.jdbc.JdbcSQLException：唯一索引或主键违规：“CONSTRAINT_INDEX_6 ON PUBLIC.DOCUMENT(DOCID)

我也尝试过使用 WHERE NOT EXISTS：

INSERT INTO document (docid, title, ref)
SELECT refid, title, 'true'
FROM refdoc
WHERE NOT EXISTS (
SELECT refid FROM refdoc
INNER JOIN document
ON document.docid = refdoc.refid );

但似乎尝试连接未编入索引的表实际上是不可能的 - 我尝试的任何连接都没有奏效。

作为最后的手段，我可以使用 FileHashMap 并转储 refdoc 表的内容，然后构造一个巨大的 PreparedStatement，如：

INSERT INTO document (docid, title, ref)
SELECT ?, ?, 'true'
WHERE NOT EXISTS (
SELECT docid FROM document
WHERE docid = ? );

但我显然不想这样做，因为这将花费很长时间。

【问题讨论】：

标签： java mysql database h2

【解决方案1】：

终于找到了一个解决方案，不涉及构建一个包含 100,000,000 条记录的批处理语句。问题是我需要强制我插入到文档中的 refdocs 尚未在文档表中，并且我只插入了 refdoc 表中的唯一行。在此之前我的所有解决方案要么未能避免冲突，未能强制唯一性，要么涉及没有索引的表上的连接。

这里是解决方法的SQL：

CREATE TABLE document (docid varchar NOT NULL, title varchar, abstract varchar, docType varchar NULL);

CREATE TABLE refdoc (refid varchar NOT NULL, title varchar);

INSERT INTO document (docid, title, abstract, docType)
VALUES ('2-s2.0-0000098715', 'title', 'abstract', 'ab');

INSERT INTO refdoc (refid, title)
VALUES ('2-s2.0-0000098715', 'title'),
VALUES ('2-s2.0-33947184743', 'title');

INSERT IGNORE INTO document (docid, title)
SELECT refid, MAX(title)
FROM refdoc
WHERE refid NOT IN (
SELECT docid FROM document )
GROUP BY refid;

ALTER TABLE document
ADD PRIMARY KEY (docid);

ALTER TABLE document
ADD FOREIGN KEY (docType) REFERENCES doctype(abbrev);

现在的逻辑是：

创建文档表
创建参考文档表
在文档表中插入一条记录
在 refdoc 表中插入两条记录，包括重复记录
插入 refdoc 中与文档不冲突且唯一的行
使用主键更改文档表
使用外键更改文档表

这有一个额外的好处，就是在插入完成之前不索引文档表。

我仍然不完全清楚为什么我会在没有主键的表上违反主键约束，但这听起来像是要提交给 h2 github 作为错误报告。

【讨论】：