【问题标题】:Mysterious error: invalid byte sequence for encoding "UTF8"神秘错误:编码“UTF8”的字节序列无效
【发布时间】:2021-05-01 01:46:00
【问题描述】:

我一直在寻找原因

编码“UTF8”的字节序列无效。

这是一个使用 libpq 的 C 程序。我正在使用PQexecParams 执行 SQL 查询。

有问题的字节序列是完全随机的,有时命令甚至运行正常。我想我一定在某个地方有内存分配问题,但即使我将所有参数指定为静态字符串,我仍然会收到带有随机字节序列的错误。 更重要的是,当我创建一个小型测试程序时,具有相同参数的相同查询运行正常。它甚至可以从应用程序的其他地方运行。 所以我完全被卡住了。我验证了所有可能的错误来源,例如 client_encoding 等,但找不到错误的来源。 令我困惑的是,尽管查询参数没有改变,但有问题的字节序列是随机的。 此外,当我检查 postgres 日志时,查询及其参数似乎是正确的。

我正在尝试更新下表中的记录:

CREATE TABLE public.contacts
(
    contactid integer NOT NULL DEFAULT nextval('contacts_contactid_seq'::regclass),
    paperid integer,
    pos character varying(50) COLLATE pg_catalog."default",
    title character varying(10) COLLATE pg_catalog."default",
    firstname character varying(20) COLLATE pg_catalog."default",
    lastname character varying(25) COLLATE pg_catalog."default",
    func character varying(25) COLLATE pg_catalog."default",
    tel1 text COLLATE pg_catalog."default",
    tel2 text COLLATE pg_catalog."default",
    fax1 text COLLATE pg_catalog."default",
    fax2 text COLLATE pg_catalog."default",
    email1 character varying(50) COLLATE pg_catalog."default",
    email2 character varying(50) COLLATE pg_catalog."default",
    maincontact boolean DEFAULT false,
    publdatacontact boolean DEFAULT false,
    invcontact boolean DEFAULT false,
    queries_recipient boolean,
    contact_log text COLLATE pg_catalog."default",
    salesforceid character(18) COLLATE pg_catalog."default",
    fakelastname boolean NOT NULL DEFAULT false,
    CONSTRAINT contacts_pk PRIMARY KEY (contactid),
    CONSTRAINT contacts_paperid_fkey FOREIGN KEY (paperid)
        REFERENCES public.papers (paperid) MATCH SIMPLE
        ON UPDATE CASCADE
        ON DELETE CASCADE
);

这是一个实际的代码:

    const char* pparams[16] = {
NULL,
NULL,
"1702",
NULL,
NULL,
NULL,
NULL,
NULL,
NULL,
NULL,
NULL,
NULL,
NULL,
NULL,
NULL,
"14340"
    };



gchar *query="UPDATE contacts SET Pos=$1::varchar,Title=$2::varchar,PaperID=$3::int,FirstName=$4::varchar,LastName=$5::varchar,Func=$6::varchar,Tel1=$7::text,Fax1=$8::text,Email1=$9::varchar,Tel2=$10::text,Fax2=$11::text,Email2=$12::varchar,MainContact=$13::boolean,PublDataContact=$14::boolean,InvContact=$15::boolean WHERE ContactID=$16::int";

      result = PQexecParams(conn, query, 16, NULL, pparams, ssizes, bbinary, 0);

Postgres 日志摘录:

Jan 26 08:40:57 ip-172-16-10-94 postgres[11334]: [113-1] 2021-01-26 09:40:57.505 CET [11334] jira@project-syndicate LOG:  execute <unnamed>: 

    UPDATE contacts SET Pos = $1::varchar, Title = $2::varchar, PaperID = $3::int, FirstName = $4::varchar, LastName = $5::varchar, Func = $6::varchar, Tel1 = $7::text, Fax1 = $8::text, Email1 = $9::varchar, Tel2 = $10::text, Fax2 = $11::text, Email2 = $12::varchar, MainContact = $13::boolean, PublDataContact = $14::boolean, InvContact = $15::boolean WHERE ContactID = $16::int
    Jan 26 08:40:57 ip-172-16-10-94 postgres[11334]: [113-2] 2021-01-26 09:40:57.505 CET [11334] jira@project-syndicate DETAIL:  parameters: $1 = NULL, $2 = NULL, $3 = '1702', $4 = NULL, $5 = NULL, $6 = NULL, $7 = NULL, $8 = NULL, $9 = NULL, $10 = NULL, $11 = NULL, $12 = NULL, $13 = NULL, $14 =  NULL, $15 = NULL, $16 = '14340'
    Jan 26 08:40:57 ip-172-16-10-94 postgres[11334]: [114-1] 2021-01-26 09:40:57.544 CET [11334] jira@project-syndicate ERROR:  invalid byte sequence for encoding "UTF8": 0x80

关于什么可能导致错误的任何想法?

【问题讨论】:

  • 这意味着您将非 Unicode 文本(可能是拉丁文 1?)存储到 UTF8 字段。这没有什么随机的。当数据库或您的程序尝试读取这些字节并将它们转换为文本时,它发现字节值对 UTF8 无效
  • 这是一个更新查询,即使它只包含整数作为外键,它也会失败。如果我将其提取到单独的程序中,则具有相同参数的完全相同的查询将起作用。我会在我的问题中添加更多细节。
  • 除此之外,您还没有提供任何代码或数据示例,因此无法猜测出什么问题。也许您在存储文本的程序中存在错误?或者 读取 数据的程序尝试使用 UTF8,即使该字段使用不同的排序规则? even I specify all the parameters as static strings 也没什么好说的——除非你使用带有 u8 前缀的 Unicode 文字,或者使用 char8_t 数组,否则你所拥有的不是 UTF8,需要转换。
  • 整数查询不会出现任何编码错误。发布您的实际代码和查询。同样,除非您使用 Unicode 字符串或字符类型,否则您将使用非 Unicode 字符串。 char 不是 Unicode 类型,它是 anything goes and good luck 类型,其行为取决于机器的区域设置。
  • Character Literals 页面显示了如何实际指定 Unicode 字符串和结果类型。一般来说,C++ 中的 Unicode 支持仍然是一团糟,而 C 则更糟。 UTF8 支持仍然是半生不熟的。这就是为什么这么多 Linux 程序需要将LC_ALL 设置为 UTF8 的原因。以及为什么数据科学家提出这么多 SO 问题,他们的 R 或 Python 2 程序在他们第一次尝试处理俄罗斯或中国数据时会卡住

标签: postgresql libpq


【解决方案1】:

首先,您使用的是 postgres,当您在 postgres 中创建类型为 character varying 的表时,您不必指定 length。这就是varying 的含义。它会根据需要消耗尽可能多的字节

您放入数据库中的字符串很可能是以这种方式编码的。双字节字符,因此当您尝试将 26 字节字符串插入 25 长度字符列时,最后一个字节无效 utf8

所以我建议您重新创建表,在 character varying 列上省略所有 lengths,然后重试。

然后检查您的系统语言环境和数据库的语言环境,我建议您使用 template0 创建您的数据库,并根据您的语言从系统本地添加一个可用的。UTF-8

然后使用file检查您的代码文件编码是否为utf8

如果没有任何效果,请告诉我

我已经使用您发布的create table 对其进行了测试,但没有外键并使用以下代码

int main() {
    const char conninfo[] = "postgresql://postgres@localhost?port=5432&dbname=libpq_demo";
    PGconn *conn = PQconnectdb(conninfo);
    if (PQstatus(conn) != CONNECTION_OK) {
        printf("Connection to database failed: %s",  PQerrorMessage(conn));
        PQfinish(conn);
        return 1;
    }
    else {
        printf("%s", "Connection to database succeed.\n");
    }

    const char* pparams[16] = {
        NULL,
        NULL,
        "1702",
        NULL,
        NULL,
        NULL,
        NULL,
        NULL,
        NULL,
        NULL,
        NULL,
        NULL,
        NULL,
        NULL,
        NULL,
        "14340"
    };

    int ssizes[16] = {
        sizeof(NULL),
        sizeof(NULL),
        4,
        sizeof(NULL),
        sizeof(NULL),
        sizeof(NULL),
        sizeof(NULL),
        sizeof(NULL),
        sizeof(NULL),
        sizeof(NULL),
        sizeof(NULL),
        sizeof(NULL),
        sizeof(NULL),
        sizeof(NULL),
        sizeof(NULL),
        5
    };

    int bbinary[16]= {
        1,
        1,
        0,
        1,
        1,
        1,
        1,
        1,
        1,
        1,
        1,
        1,
        1,
        1,
        1,
        0
    };

    gchar *query="UPDATE contacts SET Pos=$1::varchar,Title=$2::varchar,PaperID=$3::int,FirstName=$4::varchar,LastName=$5::varchar,Func=$6::varchar,Tel1=$7::text,Fax1=$8::text,Email1=$9::varchar,Tel2=$10::text,Fax2=$11::text,Email2=$12::varchar,MainContact=$13::boolean,PublDataContact=$14::boolean,InvContact=$15::boolean WHERE ContactID=$16::int";

    PQexecParams(conn, query, 16, NULL, pparams, ssizes, bbinary, 0);
}

并用它编译

gcc foo.cc -o foo-demo -I/usr/include/postgresql -I/usr/include/glib-2.0 -lpq

除了关于 gchar 的警告,我不确定你为什么要使用它,但无论如何,一切都很完美。我已经测试了大约 10K 次

你应该考虑看看

CONSTRAINT contacts_paperid_fkey FOREIGN KEY (paperid)
REFERENCES public.papers (paperid) MATCH SIMPLE

也许它与代码无关,但事实上你传递的值有冲突

【讨论】:

  • very possible that the strings you put in your db are encoded in such way ex. double byte characters, so when you are trying to insert a 26 bytes string into a 25 length character column the last byte is not valid utf8。否。varchar(n) 限制允许的 字符 数,而不是字节数。后者对于多字节编码来说是相当愚蠢的。
【解决方案2】:

问题是我的失明。该错误不是由问题中的查询引起的,而是紧随其后运行的。

【讨论】:

  • 我建议你关闭这个问题,因为它不太可能对任何人都有帮助。
  • @AShelly 我愿意,但由于赏金,它不允许我这样做。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2022-01-26
  • 2011-06-19
  • 1970-01-01
  • 2018-12-05
相关资源
最近更新 更多