Mysterious error: invalid byte sequence for encoding "UTF8"
Mysterious error: invalid byte sequence for encoding "UTF8"
我无法找到
的原因
invalid byte sequence for encoding "UTF8".
这是一个使用libpq的C程序。我正在使用 PQexecParams
来
执行 SQL 查询。
有问题的字节序列是完全随机的,有时命令甚至可以正常运行。我想我一定在某处有内存分配问题,但即使我将所有参数指定为静态字符串,我仍然收到随机字节序列的错误。
更重要的是,当我创建一个小测试程序时,具有相同参数的相同查询运行正常。它甚至可以在应用程序的其他地方正常运行。
所以我完全被困住了。我验证了所有可能的错误来源,如 client_encoding 等,但找不到错误的来源。
令我困惑的是,尽管查询参数没有改变,但有问题的字节序列是随机的。
此外,当我检查 postgres 日志时,查询及其参数似乎是正确的。
我正在尝试更新以下 table 中的记录:
CREATE TABLE public.contacts
(
contactid integer NOT NULL DEFAULT nextval('contacts_contactid_seq'::regclass),
paperid integer,
pos character varying(50) COLLATE pg_catalog."default",
title character varying(10) COLLATE pg_catalog."default",
firstname character varying(20) COLLATE pg_catalog."default",
lastname character varying(25) COLLATE pg_catalog."default",
func character varying(25) COLLATE pg_catalog."default",
tel1 text COLLATE pg_catalog."default",
tel2 text COLLATE pg_catalog."default",
fax1 text COLLATE pg_catalog."default",
fax2 text COLLATE pg_catalog."default",
email1 character varying(50) COLLATE pg_catalog."default",
email2 character varying(50) COLLATE pg_catalog."default",
maincontact boolean DEFAULT false,
publdatacontact boolean DEFAULT false,
invcontact boolean DEFAULT false,
queries_recipient boolean,
contact_log text COLLATE pg_catalog."default",
salesforceid character(18) COLLATE pg_catalog."default",
fakelastname boolean NOT NULL DEFAULT false,
CONSTRAINT contacts_pk PRIMARY KEY (contactid),
CONSTRAINT contacts_paperid_fkey FOREIGN KEY (paperid)
REFERENCES public.papers (paperid) MATCH SIMPLE
ON UPDATE CASCADE
ON DELETE CASCADE
);
这是一个实际的代码:
const char* pparams[16] = {
NULL,
NULL,
"1702",
NULL,
NULL,
NULL,
NULL,
NULL,
NULL,
NULL,
NULL,
NULL,
NULL,
NULL,
NULL,
"14340"
};
gchar *query="UPDATE contacts SET Pos=::varchar,Title=::varchar,PaperID=::int,FirstName=::varchar,LastName=::varchar,Func=::varchar,Tel1=::text,Fax1=::text,Email1=::varchar,Tel2=::text,Fax2=::text,Email2=::varchar,MainContact=::boolean,PublDataContact=::boolean,InvContact=::boolean WHERE ContactID=::int";
result = PQexecParams(conn, query, 16, NULL, pparams, ssizes, bbinary, 0);
Postgres 日志摘录:
Jan 26 08:40:57 ip-172-16-10-94 postgres[11334]: [113-1] 2021-01-26 09:40:57.505 CET [11334] jira@project-syndicate LOG: execute <unnamed>:
UPDATE contacts SET Pos = ::varchar, Title = ::varchar, PaperID = ::int, FirstName = ::varchar, LastName = ::varchar, Func = ::varchar, Tel1 = ::text, Fax1 = ::text, Email1 = ::varchar, Tel2 = ::text, Fax2 = ::text, Email2 = ::varchar, MainContact = ::boolean, PublDataContact = ::boolean, InvContact = ::boolean WHERE ContactID = ::int
Jan 26 08:40:57 ip-172-16-10-94 postgres[11334]: [113-2] 2021-01-26 09:40:57.505 CET [11334] jira@project-syndicate DETAIL: parameters: = NULL, = NULL, = '1702', = NULL, = NULL, = NULL, = NULL, = NULL, = NULL, = NULL, = NULL, = NULL, = NULL, = NULL, = NULL, = '14340'
Jan 26 08:40:57 ip-172-16-10-94 postgres[11334]: [114-1] 2021-01-26 09:40:57.544 CET [11334] jira@project-syndicate ERROR: invalid byte sequence for encoding "UTF8": 0x80
关于可能导致错误的原因有什么想法吗?
首先,您使用的是 postgres,当您在 postgres 中创建类型为 character varying
的 table 时,您不必指定 length
。这就是 varying
所代表的意思。它会根据需要消耗尽可能多的字节
您放入数据库的字符串很可能是以这种方式编码的。双字节字符,因此当您尝试将 26 字节的字符串插入 25 长度的字符列时,最后一个字节无效 utf8
所以我建议您重新创建 table,忽略 character varying
列上的所有 lengths
,然后重试。
然后检查您的系统区域设置和数据库的区域设置,我建议您使用 template0 创建数据库并根据您的 language.UTF-8
从您的系统本地添加可用的
然后使用 file
检查您的代码文件编码是否为 utf8
如果没有任何效果请告诉我
我已经用你发布的 create table
测试了它,但没有外键和下面的代码
int main() {
const char conninfo[] = "postgresql://postgres@localhost?port=5432&dbname=libpq_demo";
PGconn *conn = PQconnectdb(conninfo);
if (PQstatus(conn) != CONNECTION_OK) {
printf("Connection to database failed: %s", PQerrorMessage(conn));
PQfinish(conn);
return 1;
}
else {
printf("%s", "Connection to database succeed.\n");
}
const char* pparams[16] = {
NULL,
NULL,
"1702",
NULL,
NULL,
NULL,
NULL,
NULL,
NULL,
NULL,
NULL,
NULL,
NULL,
NULL,
NULL,
"14340"
};
int ssizes[16] = {
sizeof(NULL),
sizeof(NULL),
4,
sizeof(NULL),
sizeof(NULL),
sizeof(NULL),
sizeof(NULL),
sizeof(NULL),
sizeof(NULL),
sizeof(NULL),
sizeof(NULL),
sizeof(NULL),
sizeof(NULL),
sizeof(NULL),
sizeof(NULL),
5
};
int bbinary[16]= {
1,
1,
0,
1,
1,
1,
1,
1,
1,
1,
1,
1,
1,
1,
1,
0
};
gchar *query="UPDATE contacts SET Pos=::varchar,Title=::varchar,PaperID=::int,FirstName=::varchar,LastName=::varchar,Func=::varchar,Tel1=::text,Fax1=::text,Email1=::varchar,Tel2=::text,Fax2=::text,Email2=::varchar,MainContact=::boolean,PublDataContact=::boolean,InvContact=::boolean WHERE ContactID=::int";
PQexecParams(conn, query, 16, NULL, pparams, ssizes, bbinary, 0);
}
并用
编译
gcc foo.cc -o foo-demo -I/usr/include/postgresql -I/usr/include/glib-2.0 -lpq
除了关于 gchar 的警告,我不确定你为什么要使用它,但无论如何,一切都很完美。我已经测试了大约 10K 次
你应该考虑看看
CONSTRAINT contacts_paperid_fkey FOREIGN KEY (paperid)
REFERENCES public.papers (paperid) MATCH SIMPLE
也许它与代码无关,但事实上你在那里传递了一个冲突的值
问题是我的失明。该错误不是由问题中的查询引起的,而是由 运行 紧随其后的查询引起的。
我无法找到
的原因invalid byte sequence for encoding "UTF8".
这是一个使用libpq的C程序。我正在使用 PQexecParams
来
执行 SQL 查询。
有问题的字节序列是完全随机的,有时命令甚至可以正常运行。我想我一定在某处有内存分配问题,但即使我将所有参数指定为静态字符串,我仍然收到随机字节序列的错误。 更重要的是,当我创建一个小测试程序时,具有相同参数的相同查询运行正常。它甚至可以在应用程序的其他地方正常运行。 所以我完全被困住了。我验证了所有可能的错误来源,如 client_encoding 等,但找不到错误的来源。 令我困惑的是,尽管查询参数没有改变,但有问题的字节序列是随机的。 此外,当我检查 postgres 日志时,查询及其参数似乎是正确的。
我正在尝试更新以下 table 中的记录:
CREATE TABLE public.contacts
(
contactid integer NOT NULL DEFAULT nextval('contacts_contactid_seq'::regclass),
paperid integer,
pos character varying(50) COLLATE pg_catalog."default",
title character varying(10) COLLATE pg_catalog."default",
firstname character varying(20) COLLATE pg_catalog."default",
lastname character varying(25) COLLATE pg_catalog."default",
func character varying(25) COLLATE pg_catalog."default",
tel1 text COLLATE pg_catalog."default",
tel2 text COLLATE pg_catalog."default",
fax1 text COLLATE pg_catalog."default",
fax2 text COLLATE pg_catalog."default",
email1 character varying(50) COLLATE pg_catalog."default",
email2 character varying(50) COLLATE pg_catalog."default",
maincontact boolean DEFAULT false,
publdatacontact boolean DEFAULT false,
invcontact boolean DEFAULT false,
queries_recipient boolean,
contact_log text COLLATE pg_catalog."default",
salesforceid character(18) COLLATE pg_catalog."default",
fakelastname boolean NOT NULL DEFAULT false,
CONSTRAINT contacts_pk PRIMARY KEY (contactid),
CONSTRAINT contacts_paperid_fkey FOREIGN KEY (paperid)
REFERENCES public.papers (paperid) MATCH SIMPLE
ON UPDATE CASCADE
ON DELETE CASCADE
);
这是一个实际的代码:
const char* pparams[16] = {
NULL,
NULL,
"1702",
NULL,
NULL,
NULL,
NULL,
NULL,
NULL,
NULL,
NULL,
NULL,
NULL,
NULL,
NULL,
"14340"
};
gchar *query="UPDATE contacts SET Pos=::varchar,Title=::varchar,PaperID=::int,FirstName=::varchar,LastName=::varchar,Func=::varchar,Tel1=::text,Fax1=::text,Email1=::varchar,Tel2=::text,Fax2=::text,Email2=::varchar,MainContact=::boolean,PublDataContact=::boolean,InvContact=::boolean WHERE ContactID=::int";
result = PQexecParams(conn, query, 16, NULL, pparams, ssizes, bbinary, 0);
Postgres 日志摘录:
Jan 26 08:40:57 ip-172-16-10-94 postgres[11334]: [113-1] 2021-01-26 09:40:57.505 CET [11334] jira@project-syndicate LOG: execute <unnamed>:
UPDATE contacts SET Pos = ::varchar, Title = ::varchar, PaperID = ::int, FirstName = ::varchar, LastName = ::varchar, Func = ::varchar, Tel1 = ::text, Fax1 = ::text, Email1 = ::varchar, Tel2 = ::text, Fax2 = ::text, Email2 = ::varchar, MainContact = ::boolean, PublDataContact = ::boolean, InvContact = ::boolean WHERE ContactID = ::int
Jan 26 08:40:57 ip-172-16-10-94 postgres[11334]: [113-2] 2021-01-26 09:40:57.505 CET [11334] jira@project-syndicate DETAIL: parameters: = NULL, = NULL, = '1702', = NULL, = NULL, = NULL, = NULL, = NULL, = NULL, = NULL, = NULL, = NULL, = NULL, = NULL, = NULL, = '14340'
Jan 26 08:40:57 ip-172-16-10-94 postgres[11334]: [114-1] 2021-01-26 09:40:57.544 CET [11334] jira@project-syndicate ERROR: invalid byte sequence for encoding "UTF8": 0x80
关于可能导致错误的原因有什么想法吗?
首先,您使用的是 postgres,当您在 postgres 中创建类型为 character varying
的 table 时,您不必指定 length
。这就是 varying
所代表的意思。它会根据需要消耗尽可能多的字节
您放入数据库的字符串很可能是以这种方式编码的。双字节字符,因此当您尝试将 26 字节的字符串插入 25 长度的字符列时,最后一个字节无效 utf8
所以我建议您重新创建 table,忽略 character varying
列上的所有 lengths
,然后重试。
然后检查您的系统区域设置和数据库的区域设置,我建议您使用 template0 创建数据库并根据您的 language.UTF-8
从您的系统本地添加可用的然后使用 file
如果没有任何效果请告诉我
我已经用你发布的 create table
测试了它,但没有外键和下面的代码
int main() {
const char conninfo[] = "postgresql://postgres@localhost?port=5432&dbname=libpq_demo";
PGconn *conn = PQconnectdb(conninfo);
if (PQstatus(conn) != CONNECTION_OK) {
printf("Connection to database failed: %s", PQerrorMessage(conn));
PQfinish(conn);
return 1;
}
else {
printf("%s", "Connection to database succeed.\n");
}
const char* pparams[16] = {
NULL,
NULL,
"1702",
NULL,
NULL,
NULL,
NULL,
NULL,
NULL,
NULL,
NULL,
NULL,
NULL,
NULL,
NULL,
"14340"
};
int ssizes[16] = {
sizeof(NULL),
sizeof(NULL),
4,
sizeof(NULL),
sizeof(NULL),
sizeof(NULL),
sizeof(NULL),
sizeof(NULL),
sizeof(NULL),
sizeof(NULL),
sizeof(NULL),
sizeof(NULL),
sizeof(NULL),
sizeof(NULL),
sizeof(NULL),
5
};
int bbinary[16]= {
1,
1,
0,
1,
1,
1,
1,
1,
1,
1,
1,
1,
1,
1,
1,
0
};
gchar *query="UPDATE contacts SET Pos=::varchar,Title=::varchar,PaperID=::int,FirstName=::varchar,LastName=::varchar,Func=::varchar,Tel1=::text,Fax1=::text,Email1=::varchar,Tel2=::text,Fax2=::text,Email2=::varchar,MainContact=::boolean,PublDataContact=::boolean,InvContact=::boolean WHERE ContactID=::int";
PQexecParams(conn, query, 16, NULL, pparams, ssizes, bbinary, 0);
}
并用
编译gcc foo.cc -o foo-demo -I/usr/include/postgresql -I/usr/include/glib-2.0 -lpq
除了关于 gchar 的警告,我不确定你为什么要使用它,但无论如何,一切都很完美。我已经测试了大约 10K 次
你应该考虑看看
CONSTRAINT contacts_paperid_fkey FOREIGN KEY (paperid)
REFERENCES public.papers (paperid) MATCH SIMPLE
也许它与代码无关,但事实上你在那里传递了一个冲突的值
问题是我的失明。该错误不是由问题中的查询引起的,而是由 运行 紧随其后的查询引起的。