神秘错误：编码“UTF8”的字节序列无效答案

【问题标题】：Mysterious error: invalid byte sequence for encoding "UTF8"神秘错误：编码“UTF8”的字节序列无效
【发布时间】：2021-05-01 01:46:00
【问题描述】：

我一直在寻找原因

编码“UTF8”的字节序列无效。

这是一个使用 libpq 的 C 程序。我正在使用PQexecParams 执行 SQL 查询。

有问题的字节序列是完全随机的，有时命令甚至运行正常。我想我一定在某个地方有内存分配问题，但即使我将所有参数指定为静态字符串，我仍然会收到带有随机字节序列的错误。更重要的是，当我创建一个小型测试程序时，具有相同参数的相同查询运行正常。它甚至可以从应用程序的其他地方运行。所以我完全被卡住了。我验证了所有可能的错误来源，例如 client_encoding 等，但找不到错误的来源。令我困惑的是，尽管查询参数没有改变，但有问题的字节序列是随机的。此外，当我检查 postgres 日志时，查询及其参数似乎是正确的。

我正在尝试更新下表中的记录：

CREATE TABLE public.contacts
(
    contactid integer NOT NULL DEFAULT nextval('contacts_contactid_seq'::regclass),
    paperid integer,
    pos character varying(50) COLLATE pg_catalog."default",
    title character varying(10) COLLATE pg_catalog."default",
    firstname character varying(20) COLLATE pg_catalog."default",
    lastname character varying(25) COLLATE pg_catalog."default",
    func character varying(25) COLLATE pg_catalog."default",
    tel1 text COLLATE pg_catalog."default",
    tel2 text COLLATE pg_catalog."default",
    fax1 text COLLATE pg_catalog."default",
    fax2 text COLLATE pg_catalog."default",
    email1 character varying(50) COLLATE pg_catalog."default",
    email2 character varying(50) COLLATE pg_catalog."default",
    maincontact boolean DEFAULT false,
    publdatacontact boolean DEFAULT false,
    invcontact boolean DEFAULT false,
    queries_recipient boolean,
    contact_log text COLLATE pg_catalog."default",
    salesforceid character(18) COLLATE pg_catalog."default",
    fakelastname boolean NOT NULL DEFAULT false,
    CONSTRAINT contacts_pk PRIMARY KEY (contactid),
    CONSTRAINT contacts_paperid_fkey FOREIGN KEY (paperid)
        REFERENCES public.papers (paperid) MATCH SIMPLE
        ON UPDATE CASCADE
        ON DELETE CASCADE
);

这是一个实际的代码：

    const char* pparams[16] = {
NULL,
NULL,
"1702",
NULL,
NULL,
NULL,
NULL,
NULL,
NULL,
NULL,
NULL,
NULL,
NULL,
NULL,
NULL,
"14340"
    };



gchar *query="UPDATE contacts SET Pos=$1::varchar,Title=$2::varchar,PaperID=$3::int,FirstName=$4::varchar,LastName=$5::varchar,Func=$6::varchar,Tel1=$7::text,Fax1=$8::text,Email1=$9::varchar,Tel2=$10::text,Fax2=$11::text,Email2=$12::varchar,MainContact=$13::boolean,PublDataContact=$14::boolean,InvContact=$15::boolean WHERE ContactID=$16::int";

      result = PQexecParams(conn, query, 16, NULL, pparams, ssizes, bbinary, 0);

Postgres 日志摘录：

Jan 26 08:40:57 ip-172-16-10-94 postgres[11334]: [113-1] 2021-01-26 09:40:57.505 CET [11334] jira@project-syndicate LOG:  execute <unnamed>: 

    UPDATE contacts SET Pos = $1::varchar, Title = $2::varchar, PaperID = $3::int, FirstName = $4::varchar, LastName = $5::varchar, Func = $6::varchar, Tel1 = $7::text, Fax1 = $8::text, Email1 = $9::varchar, Tel2 = $10::text, Fax2 = $11::text, Email2 = $12::varchar, MainContact = $13::boolean, PublDataContact = $14::boolean, InvContact = $15::boolean WHERE ContactID = $16::int
    Jan 26 08:40:57 ip-172-16-10-94 postgres[11334]: [113-2] 2021-01-26 09:40:57.505 CET [11334] jira@project-syndicate DETAIL:  parameters: $1 = NULL, $2 = NULL, $3 = '1702', $4 = NULL, $5 = NULL, $6 = NULL, $7 = NULL, $8 = NULL, $9 = NULL, $10 = NULL, $11 = NULL, $12 = NULL, $13 = NULL, $14 =  NULL, $15 = NULL, $16 = '14340'
    Jan 26 08:40:57 ip-172-16-10-94 postgres[11334]: [114-1] 2021-01-26 09:40:57.544 CET [11334] jira@project-syndicate ERROR:  invalid byte sequence for encoding "UTF8": 0x80

关于什么可能导致错误的任何想法？

【问题讨论】：

这意味着您将非 Unicode 文本（可能是拉丁文 1？）存储到 UTF8 字段。这没有什么随机的。当数据库或您的程序尝试读取这些字节并将它们转换为文本时，它发现字节值对 UTF8 无效
这是一个更新查询，即使它只包含整数作为外键，它也会失败。如果我将其提取到单独的程序中，则具有相同参数的完全相同的查询将起作用。我会在我的问题中添加更多细节。
除此之外，您还没有提供任何代码或数据示例，因此无法猜测出什么问题。也许您在存储文本的程序中存在错误？或者读取数据的程序尝试使用 UTF8，即使该字段使用不同的排序规则？ even I specify all the parameters as static strings 也没什么好说的——除非你使用带有 u8 前缀的 Unicode 文字，或者使用 char8_t 数组，否则你所拥有的不是 UTF8，需要转换。
整数查询不会出现任何编码错误。发布您的实际代码和查询。同样，除非您使用 Unicode 字符串或字符类型，否则您将使用非 Unicode 字符串。 char 不是 Unicode 类型，它是 anything goes and good luck 类型，其行为取决于机器的区域设置。
Character Literals 页面显示了如何实际指定 Unicode 字符串和结果类型。一般来说，C++ 中的 Unicode 支持仍然是一团糟，而 C 则更糟。 UTF8 支持仍然是半生不熟的。这就是为什么这么多 Linux 程序需要将LC_ALL 设置为 UTF8 的原因。以及为什么数据科学家提出这么多 SO 问题，他们的 R 或 Python 2 程序在他们第一次尝试处理俄罗斯或中国数据时会卡住

标签： postgresql libpq

【解决方案1】：

首先，您使用的是 postgres，当您在 postgres 中创建类型为 character varying 的表时，您不必指定 length。这就是varying 的含义。它会根据需要消耗尽可能多的字节

您放入数据库中的字符串很可能是以这种方式编码的。双字节字符，因此当您尝试将 26 字节字符串插入 25 长度字符列时，最后一个字节无效 utf8

所以我建议您重新创建表，在 character varying 列上省略所有 lengths，然后重试。

然后检查您的系统语言环境和数据库的语言环境，我建议您使用 template0 创建您的数据库，并根据您的语言从系统本地添加一个可用的。UTF-8

然后使用file检查您的代码文件编码是否为utf8

如果没有任何效果，请告诉我

我已经使用您发布的create table 对其进行了测试，但没有外键并使用以下代码

int main() {
    const char conninfo[] = "postgresql://postgres@localhost?port=5432&dbname=libpq_demo";
    PGconn *conn = PQconnectdb(conninfo);
    if (PQstatus(conn) != CONNECTION_OK) {
        printf("Connection to database failed: %s",  PQerrorMessage(conn));
        PQfinish(conn);
        return 1;
    }
    else {
        printf("%s", "Connection to database succeed.\n");
    }

    const char* pparams[16] = {
        NULL,
        NULL,
        "1702",
        NULL,
        NULL,
        NULL,
        NULL,
        NULL,
        NULL,
        NULL,
        NULL,
        NULL,
        NULL,
        NULL,
        NULL,
        "14340"
    };

    int ssizes[16] = {
        sizeof(NULL),
        sizeof(NULL),
        4,
        sizeof(NULL),
        sizeof(NULL),
        sizeof(NULL),
        sizeof(NULL),
        sizeof(NULL),
        sizeof(NULL),
        sizeof(NULL),
        sizeof(NULL),
        sizeof(NULL),
        sizeof(NULL),
        sizeof(NULL),
        sizeof(NULL),
        5
    };

    int bbinary[16]= {
        1,
        1,
        0,
        1,
        1,
        1,
        1,
        1,
        1,
        1,
        1,
        1,
        1,
        1,
        1,
        0
    };

    gchar *query="UPDATE contacts SET Pos=$1::varchar,Title=$2::varchar,PaperID=$3::int,FirstName=$4::varchar,LastName=$5::varchar,Func=$6::varchar,Tel1=$7::text,Fax1=$8::text,Email1=$9::varchar,Tel2=$10::text,Fax2=$11::text,Email2=$12::varchar,MainContact=$13::boolean,PublDataContact=$14::boolean,InvContact=$15::boolean WHERE ContactID=$16::int";

    PQexecParams(conn, query, 16, NULL, pparams, ssizes, bbinary, 0);
}

并用它编译

gcc foo.cc -o foo-demo -I/usr/include/postgresql -I/usr/include/glib-2.0 -lpq

除了关于 gchar 的警告，我不确定你为什么要使用它，但无论如何，一切都很完美。我已经测试了大约 10K 次

你应该考虑看看

CONSTRAINT contacts_paperid_fkey FOREIGN KEY (paperid)
REFERENCES public.papers (paperid) MATCH SIMPLE

也许它与代码无关，但事实上你传递的值有冲突

【讨论】：

very possible that the strings you put in your db are encoded in such way ex. double byte characters, so when you are trying to insert a 26 bytes string into a 25 length character column the last byte is not valid utf8。否。varchar(n) 限制允许的字符数，而不是字节数。后者对于多字节编码来说是相当愚蠢的。

【解决方案2】：

问题是我的失明。该错误不是由问题中的查询引起的，而是紧随其后运行的。

【讨论】：

我建议你关闭这个问题，因为它不太可能对任何人都有帮助。
@AShelly 我愿意，但由于赏金，它不允许我这样做。