自定义基本数据类型的输入函数中的 Postgresql 损坏数据
Postgresql corrupt data in input function of custom base data type
我创建了一个自定义类型,gp
来模拟 DND 5e 货币系统。我在 gp.c
:
中定义了自定义输入和输出函数
#include "postgres.h"
#include <string.h>
#include "fmgr.h"
#include <stdio.h>
#ifdef PG_MODULE_MAGIC
PG_MODULE_MAGIC;
#endif
static const char* inputFormat = " %i %s2 ";
static const char* invalidFormat = "invalid input syntax for gp: \"%s\"";
PG_FUNCTION_INFO_V1(gp_input);
Datum gp_input(PG_FUNCTION_ARGS) {
char* raw = PG_GETARG_CSTRING(0);
int32 amt;
char unit[3];
if (sscanf(raw, inputFormat, &amt, &unit[0]) != 2) {
ereport(ERROR, (errcode(ERRCODE_INVALID_TEXT_REPRESENTATION), errmsg(invalidFormat, raw)));
}
switch(unit[1]) {
case 'p':
break;
default:
ereport(ERROR, (errcode(ERRCODE_INVALID_TEXT_REPRESENTATION), errmsg(invalidFormat, raw)));
}
switch(unit[0]) {
case 'c':
break;
case 's':
amt *= 10;
break;
case 'e':
amt *= 50;
break;
case 'g':
amt *= 100;
break;
case 'p':
amt *= 1000;
break;
default:
ereport(ERROR, (errcode(ERRCODE_INVALID_TEXT_REPRESENTATION), errmsg(invalidFormat, raw)));
}
int32* result = (int32*)palloc(sizeof(int32));
*result = amt;
PG_RETURN_POINTER(result);
}
PG_FUNCTION_INFO_V1(gp_output);
Datum gp_output(PG_FUNCTION_ARGS) {
int32* raw = (int32*)PG_GETARG_POINTER(0);
int32 val = *raw;
unsigned int bufsz = sizeof(unsigned char)*9 + 2;// allow up to 999999999[pgsc]p
char* buf = (char*) palloc(bufsz+1); // +1 b/c '[=10=]'
if (val >= 10 && val % 10 == 0) {
val /= 10;
if (val >= 10 && val % 10 == 0) {
val /= 10;
if (val >= 10 && val % 10 == 0) {
val /= 10;
if (sprintf(buf, "%dpp", val) <= 0) {
ereport(ERROR, (errcode(ERRCODE_UNTRANSLATABLE_CHARACTER), errmsg("Bad value for gp")));
}
}
else {
if (sprintf(buf, "%dgp", val) <= 0) {
ereport(ERROR, (errcode(ERRCODE_UNTRANSLATABLE_CHARACTER), errmsg("Bad value for gp")));
}
}
}
else {
if (sprintf(buf, "%dsp", val) <= 0) {
ereport(ERROR, (errcode(ERRCODE_UNTRANSLATABLE_CHARACTER), errmsg("Bad value for gp")));
}
}
}
else {
if (sprintf(buf, "%dcp", val) <= 0) {
ereport(ERROR, (errcode(ERRCODE_UNTRANSLATABLE_CHARACTER), errmsg("Bad value for gp")));
}
}
PG_RETURN_CSTRING(buf);
}
我知道我没有检查数字是否超出范围或存储的值是否适合缓冲区,但我还没有遇到那个问题。我的问题是 postgres 似乎正在编辑,在某些情况下会破坏我正在存储的值。我有这个测试 SQL 文件:
DROP TYPE IF EXISTS gp CASCADE;
DROP TABLE IF EXISTS test;
CREATE TYPE gp;
CREATE FUNCTION gp_input(cstring) RETURNS gp AS '$libdir/gp.so' LANGUAGE C IMMUTABLE STRICT;
CREATE FUNCTION gp_output(gp) RETURNS cstring AS '$libdir/gp.so' LANGUAGE C IMMUTABLE STRICT;
CREATE TYPE gp (input=gp_input, output=gp_output);
CREATE TABLE test (val gp);
INSERT INTO test VALUES ('12sp'), ('100gp'), ('1000cp'), ('101cp');
SELECT * FROM test;
INSERT INTO test VALUES ('101sp');
SELECT
的输出是:
val
-------
12sp
10pp
1pp
212cp
(4 rows)
所以我们可以看到所有值都被正确存储和表示,除了最后一个:101cp
被存储为指向 int32
值 212
的指针。使用 ereport
警告,我能够确定就在输入函数中的 return 之前,result
指向正确的值:101
。但是,作为参数传递给我的输出函数的指针指向一个我没有存储的值:212
。在输入代码结尾和输出代码开头之间的某处,postgres 损坏了该值。 总是 与输入字符串 101cp
一起发生,与 table 的状态或同时插入的任何其他值无关。
但现在是真正奇怪的部分;最后 INSERT
使客户端崩溃。解析该 gp 值后,它会打印错误:
psql:./gptest.sql:15: ERROR: compressed data is corrupted
LINE 1: INSERT INTO test VALUES ('101sp');
^
这个 总是 发生在值 101sp
上,而不管 table 状态或任何其他值被插入它旁边。使用 ereport
警告,我能够在 return 语句之前看到 result
指向正确的值:1010
。这也意味着崩溃发生在 return 宏扩展或某些底层代码中。
所以我真的不知道发生了什么。我正在做 palloc
所以不允许覆盖内存,而且我想不出包含 101
的值总是有问题的任何原因 - 并且不同的问题取决于单位。 int32
应该能够存储我正在测试的小值,但事实并非如此。我不知道这是否应该是这样实现的,但我已经检查过,传递给输出的指针与任何这些值的 result
指针的地址不同,所以我假设它正在做一些某种程度上 memcpy
在幕后不正确,但是我知道如何期望任何人定义自定义基本数据类型。
CREATE TYPE
采用大量可选参数,其中一些与数据的物理布局有关,并且这些参数需要与 I/O 函数的结构一致 expecting/returning .
文档似乎没有提到这些参数的默认值,但是提到 "compressed data" 的错误表明您的值是 TOASTed,即 INTERNALLENGTH
默认为VARIABLE
。此类类型应以 varlena
header 开头,描述值的总长度,这肯定不是您要 returning 的内容(尽管 Postgres 仍会这样解释它,导致各种奇怪的行为,更不用说将大量随机字节保存到您的table,并且可能迟早会出现段错误...)。
如果您的目标是创建一个在内部表示为简单整数(fixed-length、pass-by-value 等)的类型,您只需复制 built-in类型:
CREATE TYPE gp (input=gp_input, output=gp_output, like=integer);
然后你应该能够取消 palloc()
和指针,用 PG_GETARG_INT32(0)
获取你的参数,并且只是 return PG_RETURN_INT32(amt)
.
如果您想要 built-in 类型的所有行为,但使用自定义显示格式,这比您预期的要容易得多。
类似 numeric
的内部 C 例程与您为自己实现此类类型而编写的例程相同。因此,您可以简单地通过 copy-pasting 它的 SQL-level 定义来创建您自己的这种 built-in 类型的版本,并让函数指向现有的 C 处理程序来完成所有实际的工作:
CREATE TYPE gp;
CREATE FUNCTION gp_in(cstring,oid,integer) RETURNS gp LANGUAGE internal IMMUTABLE STRICT PARALLEL SAFE AS 'numeric_in';
CREATE FUNCTION gp_out(gp) RETURNS cstring LANGUAGE internal IMMUTABLE STRICT PARALLEL SAFE AS 'numeric_out';
CREATE FUNCTION gp_send(gp) RETURNS bytea LANGUAGE internal IMMUTABLE STRICT PARALLEL SAFE AS 'numeric_send';
CREATE FUNCTION gp_recv(internal,oid,integer) RETURNS gp LANGUAGE internal IMMUTABLE STRICT PARALLEL SAFE AS 'numeric_recv';
CREATE FUNCTION gptypmodin(cstring[]) RETURNS integer LANGUAGE internal IMMUTABLE STRICT PARALLEL SAFE AS 'numerictypmodin';
CREATE FUNCTION gptypmodout(integer) RETURNS cstring LANGUAGE internal IMMUTABLE STRICT PARALLEL SAFE AS 'numerictypmodout';
CREATE TYPE gp (
INPUT = gp_in,
OUTPUT = gp_out,
RECEIVE = gp_recv,
SEND = gp_send,
TYPMOD_IN = gptypmodin,
TYPMOD_OUT = gptypmodout,
LIKE = numeric
);
CREATE TABLE t (x gp(10,2), y gp);
INSERT INTO t VALUES ('123.45', '2387456987623498765324.2837654987364987269837456981');
SELECT * FROM t;
x | y
--------+-----------------------------------------------------
123.45 | 2387456987623498765324.2837654987364987269837456981
从那里,您可以用自己的 C 函数替换 input/output 处理程序,copy-pasting 来自 internal functions 的代码作为起点。在您的情况下,最简单的方法可能是在函数开头将 DnD 货币字符串转换为简单的十进制字符串,并让其余代码担心将其转换为 Numeric
的混乱细节。
如果你想要 arithmetic/comparison 运算符、索引操作类、min/max 聚合、类型转换等,你也可以 copy-paste 来自原始类型的那些定义,只要你不要乱用内部二进制格式。
我创建了一个自定义类型,gp
来模拟 DND 5e 货币系统。我在 gp.c
:
#include "postgres.h"
#include <string.h>
#include "fmgr.h"
#include <stdio.h>
#ifdef PG_MODULE_MAGIC
PG_MODULE_MAGIC;
#endif
static const char* inputFormat = " %i %s2 ";
static const char* invalidFormat = "invalid input syntax for gp: \"%s\"";
PG_FUNCTION_INFO_V1(gp_input);
Datum gp_input(PG_FUNCTION_ARGS) {
char* raw = PG_GETARG_CSTRING(0);
int32 amt;
char unit[3];
if (sscanf(raw, inputFormat, &amt, &unit[0]) != 2) {
ereport(ERROR, (errcode(ERRCODE_INVALID_TEXT_REPRESENTATION), errmsg(invalidFormat, raw)));
}
switch(unit[1]) {
case 'p':
break;
default:
ereport(ERROR, (errcode(ERRCODE_INVALID_TEXT_REPRESENTATION), errmsg(invalidFormat, raw)));
}
switch(unit[0]) {
case 'c':
break;
case 's':
amt *= 10;
break;
case 'e':
amt *= 50;
break;
case 'g':
amt *= 100;
break;
case 'p':
amt *= 1000;
break;
default:
ereport(ERROR, (errcode(ERRCODE_INVALID_TEXT_REPRESENTATION), errmsg(invalidFormat, raw)));
}
int32* result = (int32*)palloc(sizeof(int32));
*result = amt;
PG_RETURN_POINTER(result);
}
PG_FUNCTION_INFO_V1(gp_output);
Datum gp_output(PG_FUNCTION_ARGS) {
int32* raw = (int32*)PG_GETARG_POINTER(0);
int32 val = *raw;
unsigned int bufsz = sizeof(unsigned char)*9 + 2;// allow up to 999999999[pgsc]p
char* buf = (char*) palloc(bufsz+1); // +1 b/c '[=10=]'
if (val >= 10 && val % 10 == 0) {
val /= 10;
if (val >= 10 && val % 10 == 0) {
val /= 10;
if (val >= 10 && val % 10 == 0) {
val /= 10;
if (sprintf(buf, "%dpp", val) <= 0) {
ereport(ERROR, (errcode(ERRCODE_UNTRANSLATABLE_CHARACTER), errmsg("Bad value for gp")));
}
}
else {
if (sprintf(buf, "%dgp", val) <= 0) {
ereport(ERROR, (errcode(ERRCODE_UNTRANSLATABLE_CHARACTER), errmsg("Bad value for gp")));
}
}
}
else {
if (sprintf(buf, "%dsp", val) <= 0) {
ereport(ERROR, (errcode(ERRCODE_UNTRANSLATABLE_CHARACTER), errmsg("Bad value for gp")));
}
}
}
else {
if (sprintf(buf, "%dcp", val) <= 0) {
ereport(ERROR, (errcode(ERRCODE_UNTRANSLATABLE_CHARACTER), errmsg("Bad value for gp")));
}
}
PG_RETURN_CSTRING(buf);
}
我知道我没有检查数字是否超出范围或存储的值是否适合缓冲区,但我还没有遇到那个问题。我的问题是 postgres 似乎正在编辑,在某些情况下会破坏我正在存储的值。我有这个测试 SQL 文件:
DROP TYPE IF EXISTS gp CASCADE;
DROP TABLE IF EXISTS test;
CREATE TYPE gp;
CREATE FUNCTION gp_input(cstring) RETURNS gp AS '$libdir/gp.so' LANGUAGE C IMMUTABLE STRICT;
CREATE FUNCTION gp_output(gp) RETURNS cstring AS '$libdir/gp.so' LANGUAGE C IMMUTABLE STRICT;
CREATE TYPE gp (input=gp_input, output=gp_output);
CREATE TABLE test (val gp);
INSERT INTO test VALUES ('12sp'), ('100gp'), ('1000cp'), ('101cp');
SELECT * FROM test;
INSERT INTO test VALUES ('101sp');
SELECT
的输出是:
val
-------
12sp
10pp
1pp
212cp
(4 rows)
所以我们可以看到所有值都被正确存储和表示,除了最后一个:101cp
被存储为指向 int32
值 212
的指针。使用 ereport
警告,我能够确定就在输入函数中的 return 之前,result
指向正确的值:101
。但是,作为参数传递给我的输出函数的指针指向一个我没有存储的值:212
。在输入代码结尾和输出代码开头之间的某处,postgres 损坏了该值。 总是 与输入字符串 101cp
一起发生,与 table 的状态或同时插入的任何其他值无关。
但现在是真正奇怪的部分;最后 INSERT
使客户端崩溃。解析该 gp 值后,它会打印错误:
psql:./gptest.sql:15: ERROR: compressed data is corrupted
LINE 1: INSERT INTO test VALUES ('101sp');
^
这个 总是 发生在值 101sp
上,而不管 table 状态或任何其他值被插入它旁边。使用 ereport
警告,我能够在 return 语句之前看到 result
指向正确的值:1010
。这也意味着崩溃发生在 return 宏扩展或某些底层代码中。
所以我真的不知道发生了什么。我正在做 palloc
所以不允许覆盖内存,而且我想不出包含 101
的值总是有问题的任何原因 - 并且不同的问题取决于单位。 int32
应该能够存储我正在测试的小值,但事实并非如此。我不知道这是否应该是这样实现的,但我已经检查过,传递给输出的指针与任何这些值的 result
指针的地址不同,所以我假设它正在做一些某种程度上 memcpy
在幕后不正确,但是我知道如何期望任何人定义自定义基本数据类型。
CREATE TYPE
采用大量可选参数,其中一些与数据的物理布局有关,并且这些参数需要与 I/O 函数的结构一致 expecting/returning .
文档似乎没有提到这些参数的默认值,但是提到 "compressed data" 的错误表明您的值是 TOASTed,即 INTERNALLENGTH
默认为VARIABLE
。此类类型应以 varlena
header 开头,描述值的总长度,这肯定不是您要 returning 的内容(尽管 Postgres 仍会这样解释它,导致各种奇怪的行为,更不用说将大量随机字节保存到您的table,并且可能迟早会出现段错误...)。
如果您的目标是创建一个在内部表示为简单整数(fixed-length、pass-by-value 等)的类型,您只需复制 built-in类型:
CREATE TYPE gp (input=gp_input, output=gp_output, like=integer);
然后你应该能够取消 palloc()
和指针,用 PG_GETARG_INT32(0)
获取你的参数,并且只是 return PG_RETURN_INT32(amt)
.
如果您想要 built-in 类型的所有行为,但使用自定义显示格式,这比您预期的要容易得多。
类似 numeric
的内部 C 例程与您为自己实现此类类型而编写的例程相同。因此,您可以简单地通过 copy-pasting 它的 SQL-level 定义来创建您自己的这种 built-in 类型的版本,并让函数指向现有的 C 处理程序来完成所有实际的工作:
CREATE TYPE gp;
CREATE FUNCTION gp_in(cstring,oid,integer) RETURNS gp LANGUAGE internal IMMUTABLE STRICT PARALLEL SAFE AS 'numeric_in';
CREATE FUNCTION gp_out(gp) RETURNS cstring LANGUAGE internal IMMUTABLE STRICT PARALLEL SAFE AS 'numeric_out';
CREATE FUNCTION gp_send(gp) RETURNS bytea LANGUAGE internal IMMUTABLE STRICT PARALLEL SAFE AS 'numeric_send';
CREATE FUNCTION gp_recv(internal,oid,integer) RETURNS gp LANGUAGE internal IMMUTABLE STRICT PARALLEL SAFE AS 'numeric_recv';
CREATE FUNCTION gptypmodin(cstring[]) RETURNS integer LANGUAGE internal IMMUTABLE STRICT PARALLEL SAFE AS 'numerictypmodin';
CREATE FUNCTION gptypmodout(integer) RETURNS cstring LANGUAGE internal IMMUTABLE STRICT PARALLEL SAFE AS 'numerictypmodout';
CREATE TYPE gp (
INPUT = gp_in,
OUTPUT = gp_out,
RECEIVE = gp_recv,
SEND = gp_send,
TYPMOD_IN = gptypmodin,
TYPMOD_OUT = gptypmodout,
LIKE = numeric
);
CREATE TABLE t (x gp(10,2), y gp);
INSERT INTO t VALUES ('123.45', '2387456987623498765324.2837654987364987269837456981');
SELECT * FROM t;
x | y
--------+-----------------------------------------------------
123.45 | 2387456987623498765324.2837654987364987269837456981
从那里,您可以用自己的 C 函数替换 input/output 处理程序,copy-pasting 来自 internal functions 的代码作为起点。在您的情况下,最简单的方法可能是在函数开头将 DnD 货币字符串转换为简单的十进制字符串,并让其余代码担心将其转换为 Numeric
的混乱细节。
如果你想要 arithmetic/comparison 运算符、索引操作类、min/max 聚合、类型转换等,你也可以 copy-paste 来自原始类型的那些定义,只要你不要乱用内部二进制格式。