postgres 中的 bytea 存储和检索字节答案

【问题标题】：bytea in postgres storing and retrieving bytespostgres 中的 bytea 存储和检索字节
【发布时间】：2012-04-16 18:00:04
【问题描述】：

我正在尝试了解如何在 postgresql (v 8.3) 中处理二进制数据。假设我有一张下表

Table "public.message"
Column  |  Type   | Modifiers 
---------+---------+-----------
id      | integer | 
message | bytea   |

我想以这种格式在消息字段中存储一个数据包：

版本（1字节），标识符（1字节），纪元（4字节）

我想将此数据打包到消息字段中。假设我有版本=1、标识符=8 和纪元=123456。我如何将这些数据打包到消息字段中？如何将我的整数值转换为十六进制.. 或八进制？

我还需要取回消息并解析它。我正在查看get_byte 函数，除非有其他方法可以解析出数据..

谢谢！

【问题讨论】：

如果你可以使用 plperl，pack() 和 unpack() 就是你想要的。但是 PG built-in SQL 函数中没有等效项。或者考虑在客户端进行。
有什么特殊原因要将这些值打包到 bytea 列中吗？为什么不只是三个数字列？如果你真的想这样做，你最好按照@DanielVérité 在他的回答中的建议，用 Python 或 Perl 等外部语言构建一个函数。
原因是我正在处理将消息字段作为 bytea 的现有架构，这就是我必须使用的。这真的让我感到惊讶，在 pg 中没有对此的支持。我知道包函数，例如在 python 中。

标签： postgresql bytea

【解决方案1】：

所以我能够在plpg 中弄清楚如何做到这一点这是要打包的代码

CREATE FUNCTION pack_numeric_bytes(i_values NUMERIC[], i_byte_sizes NUMERIC[],    i_big_endian BOOLEAN)
RETURNS BYTEA
    DECLARE
        v_bytes BYTEA := NULL;
        v_start INTEGER := 1;
        v_byte BYTEA;
        v_byte_size INTEGER;
        v_value NUMERIC;
        v_binary_value TEXT;
        v_num NUMERIC;
        i INTEGER;
        x INTEGER;
        v_sql TEXT;
    BEGIN
        IF array_upper(i_values, 1) != array_upper(i_byte_sizes, 1) THEN
            RETURN v_bytes;
        END IF;

        FOR x IN array_lower(i_values, 1) .. array_upper(i_values, 1) LOOP

            /* Given value and size at x position */
            v_byte_size := i_byte_sizes[x]::INTEGER;
            v_value := i_values[x];
            /* Convert number to binary form */
            v_sql := $$SELECT $$|| v_value ||$$::bit($$|| v_byte_size*8 ||$$);$$;
            EXECUTE v_sql INTO v_binary_value;
            IF i_big_endian IS TRUE THEN
                /* Convert each byte at a time */
                FOR i IN 1 .. v_byte_size LOOP
                    /* Extract byte from our binary value. 
                    Big endian starts at 1 and then increments of 8 */
                    v_byte := substring(v_binary_value, v_start, 8);
                    /* Convert binary 8 bits to an integer */
                    v_sql := $$SELECT B$$||quote_literal(v_byte)||$$::int8$$;
                    EXECUTE v_sql INTO v_num;
                    /* Build bytea of bytes */
                    v_bytes := COALESCE(v_bytes, '') || set_byte(E' '::BYTEA, 0, v_num::INTEGER);
                    v_start := v_start + 8;

                END LOOP;
            ELSE
                /* Small endian is extracted starting from last byte */
                v_start := (v_byte_size * 8) + 1;
                /* Convert each byte at a time */
                FOR i IN 1 .. v_byte_size LOOP
                    v_start := v_start - 8;
                    v_byte := substring(v_binary_value, v_start, 8);
                    /* Convert binary 8 bits to an integer */
                    v_sql := $$SELECT B$$||quote_literal(v_byte)||$$::int8$$;
                    EXECUTE v_sql INTO v_num;
                    /* Build bytea of bytes */
                    v_bytes := COALESCE(v_bytes, '') || set_byte(E' '::BYTEA, 0, v_num::INTEGER);
                END LOOP;

            END IF; /* END endian check */

            v_start := 1;

        END LOOP;
        RETURN v_bytes;
    END;

下面是解压代码：

CREATE OR REPLACE FUNCTION public.unpack_numeric_bytes(i_bytes bytea, i_byte_sizes INTEGER[], i_big_endian BOOLEAN)
RETURNS NUMERIC[]
SECURITY DEFINER AS
    DECLARE
        v_bytes BYTEA;
        v_start INTEGER := 1;
        v_byte_index INTEGER := 0;
        v_bit_shift INTEGER := 0;

        v_length INTEGER;
        v_size INTEGER;
        v_sum_byte_sizes INTEGER;

        v_vals NUMERIC[] := '{}';
        v_val BIGINT := 0;

        i INTEGER;
        x INTEGER;
        v_sql TEXT;
    BEGIN
       v_sql := $$SELECT $$|| array_to_string(i_byte_sizes, '+')||$$;$$;

        EXECUTE v_sql INTO v_sum_byte_sizes;

        IF length(i_bytes) != v_sum_byte_sizes::INTEGER THEN
            RETURN v_vals;
        END IF;

        /* Loop through values of bytea (split by their sizes) */
        FOR x IN array_lower(i_byte_sizes, 1) .. array_upper(i_byte_sizes, 1) LOOP

            v_size := i_byte_sizes[x];
            v_bytes := substring(i_bytes, v_start, v_size);
            v_length := length(v_bytes);

            IF i_big_endian IS TRUE THEN

                v_byte_index := v_length - 1;

                FOR i IN 1..v_length LOOP
                    v_val := v_val + (get_byte(v_bytes, v_byte_index) << v_bit_shift);
                    v_bit_shift := v_bit_shift + 8;
                    v_byte_index := v_byte_index - 1;
                END LOOP;
            ELSE

                FOR i IN 1..v_length LOOP
                    v_val := v_val + (get_byte(v_bytes, v_byte_index) << v_bit_shift);
                    v_bit_shift := v_bit_shift + 8;
                    v_byte_index := v_byte_index + 1;
                END LOOP;

            END IF;

            v_vals := array_append(v_vals, v_val::NUMERIC);
            /* Calculate next value start index */
            v_start := v_start + v_size;
            v_byte_index := 0;
            v_bit_shift := 0;
            v_val := 0;

        END LOOP;

        RETURN v_vals;
    END;

我希望这会对某人有所帮助。

【讨论】：

谢谢！你能解释一下v_sql := $$SELECT B$$||quote_literal(v_byte)||$$::int8$$;吗？由于这条线，我遇到了一个问题

【解决方案2】：

这里是一些示例代码，展示了如何使用服务器端 Perl 来实现。恼人的是，PG 认为打包/解包操作是不受信任的，因此必须由超级用户使用 plperlu 创建，然后通过 GRANT EXECUTE 将访问权限授予非超级用户。

另一方面，这种语言选择可以轻松处理更复杂的打包结构，这比基于 SQL get_bytes()/set_bytes() 函数的代码具有显着优势。见Perl's pack() features。

1) 第一步：定义一个代表非打包记录的SQL复合类型。

create type comp as (a smallint, b smallint, c int);

2) 制作一个函数将记录值打包到 bytea 中：

create function pack_comp(comp) returns bytea
as $body$
 my $arg=shift;
 my $retval = pack("CCL", $arg->{a},$arg->{b},$arg->{c});
 # encode bytea according to PG doc. For PG>=9.0, use encode_bytea() instead
 $retval =~ s!(\\|[^ -~])!sprintf("\\%03o",ord($1))!ge; # from PG doc
 return $retval;
$body$ language plperlu;

3) 创建一个函数，将 bytea 解包为复合类型：

create or replace function unpack_comp(bytea) returns comp
as $body$
 my $arg=shift;
 # decode bytea according to PG doc. For PG>=9.0, use decode_bytea() instead
 $arg =~ s!\\(?:\\|(\d{3}))!$1 ? chr(oct($1)) : "\\"!ge;
 my ($v,$i,$e)= unpack("CCL", $arg);
 return {"a"=>$v, "b"=>$i, "c"=>$e};
$body$ language plperlu;

4) 用法：

# select encode(pack_comp((254,14,1000000)::comp), 'hex');
    encode    
--------------
 fe0e40420f00

# select unpack_comp(decode('fe0e40420f00','hex'));
   unpack_comp    
------------------
 (254,14,1000000)

 # select * from unpack_comp(decode('fe0e40420f00','hex'));
  a  | b  |    c    
-----+----+---------
 254 | 14 | 1000000

【讨论】：

感谢您抽出宝贵时间撰写本文。感人的！我只是不确定这对我有用..
我也在尝试了解整个二进制打包的工作原理。在您的示例中，40420f00 是 1000000，但是当我使用在线计算器时，它会显示“f4240”。这是否与某种字节重新排列有关？
是的，这是little endian 字节顺序，它是x86 机器上的“本机”字节顺序。可以使用“CCL>”模板而不是“CCL”来获得大端序