【问题标题】:C code to convert EBCDIC printables to ASCII in-place将 EBCDIC 可打印文件就地转换为 ASCII 的 C 代码
【发布时间】:2011-10-12 01:17:12
【问题描述】:

在 C 中将 EBCDIC 编码的字符串就地转换为其 ASCII 等效字符串的最简单方法是什么。

唯一需要转换的字符是空格、字母数字和来自集合<=>()+-*/&|!$#@.,;%_?"。所有其他字符都可以简单地替换为.

函数签名基本上是:

void ebcdicToAscii (char *s);

目前,我倾向于为各种 EBCDIC 部分使用一系列查找表和多个 if 语句,但我想知道是否有更好的方法。

【问题讨论】:

    标签: c ascii ebcdic


    【解决方案1】:

    使用来自here 的表格,从我的头顶:

    static const unsigned char e2a[256] = {
              0,  1,  2,  3,156,  9,134,127,151,141,142, 11, 12, 13, 14, 15,
             16, 17, 18, 19,157,133,  8,135, 24, 25,146,143, 28, 29, 30, 31,
            128,129,130,131,132, 10, 23, 27,136,137,138,139,140,  5,  6,  7,
            144,145, 22,147,148,149,150,  4,152,153,154,155, 20, 21,158, 26,
             32,160,161,162,163,164,165,166,167,168, 91, 46, 60, 40, 43, 33,
             38,169,170,171,172,173,174,175,176,177, 93, 36, 42, 41, 59, 94,
             45, 47,178,179,180,181,182,183,184,185,124, 44, 37, 95, 62, 63,
            186,187,188,189,190,191,192,193,194, 96, 58, 35, 64, 39, 61, 34,
            195, 97, 98, 99,100,101,102,103,104,105,196,197,198,199,200,201,
            202,106,107,108,109,110,111,112,113,114,203,204,205,206,207,208,
            209,126,115,116,117,118,119,120,121,122,210,211,212,213,214,215,
            216,217,218,219,220,221,222,223,224,225,226,227,228,229,230,231,
            123, 65, 66, 67, 68, 69, 70, 71, 72, 73,232,233,234,235,236,237,
            125, 74, 75, 76, 77, 78, 79, 80, 81, 82,238,239,240,241,242,243,
             92,159, 83, 84, 85, 86, 87, 88, 89, 90,244,245,246,247,248,249,
             48, 49, 50, 51, 52, 53, 54, 55, 56, 57,250,251,252,253,254,255
    };
    
    void ebcdicToAscii (unsigned char *s)
    {
        while (*s)
        {
            *s = e2a[(int) (*s)];
            s++;
        }
    }
    

    对于您的具体要求,我建议如下:

    #include <stdio.h>
    
    void inSituEbcdicToAscii (char *s) {
        static char etoa[] =
            "                                "
            "                                "
            "           .<(+|&         !$*); "  // first char here is real space
            "-/         ,%_>?         `:#@'=\""
            " abcdefghi       jklmnopqr      "
            "  stuvwxyz                      "
            " ABCDEFGHI       JKLMNOPQR      "
            "  STUVWXYZ      0123456789      ";
    
        while (*s != '\0') {
            *s = etoa[(unsigned char)*s];
            s++;
        }
    }
    
    int main (void) {
        char str[] = "\xc8\x85\x93\x93\x96\x40\xa3\x88\x85\x99\x85\x5a";
        inSituEbcdicToAscii (str);
        printf ("%s\n", str);
        return 0;
    }
    

    从等效的 EBCDIC 字符输出 Hello there!。除了您感兴趣的字符之外,所有其他字符都将转换为空格,但您可以将其更改为其他字符(确保您不要修改 EBCDIC 代码 0x40,这是 real 空格) .

    【讨论】:

    • 我认为我必须更改该表以允许“所有其他字符都可以简单地替换为 .”要求,是吗?
    • 这个答案比我的好,因为它包含了实际的表格。 :D
    • 推荐static const unsigned char 供餐桌使用。
    • 这几乎每次都会在带有签名 chars 的系统上失败,因为 EBCDIC A-Za-z 设置了高位 (0x80)。在进行数组索引以使其正常工作时,您希望转换为 unsigned char 类型,而不是 int
    • 我收到的是“Hello there]”而不是“Hello there!”查找表是否正确?
    【解决方案2】:

    您可能需要一个转换表。那将是一个由 256 个元素组成的一维数组;每一个都定位在它的EBCDIC位置,它的值是同一个字符的ASCII值。

    const char ebcdicToAsciiTable[256];
    

    然后,就地转换:

    void ebcdicToAscii(char *s) {
        size_t len = strlen(s);
        for (size_t i = 0; i < len; i++)
            s[i] = ebcdicToAsciiTable[(unsigned char)(s[i])];
    }
    

    表格的内容留给读者作为练习。 ;)

    【讨论】:

    • 注意:由于char 可能被签名,使用s[i] 作为索引可能会生成-128 到127 等值。建议ebcdicToAsciiTable[(unsigned char) s[i]]
    【解决方案3】:

    最简单的方法是使用包含 256 个条目的查找表。这是使用 Python 生成此类表的一种方法:

    print 'static const char kEbcdicToAscii[256] = {';
    for i in range(256):
        print '    %d,' % ord(chr(i).decode('cp500'))
    print '};'
    

    然后解码:

    void ebcdicToAscii(char *s)
    {
        while(*s)
            *s++ = kEbcdicToAscii[(unsigned char)*s];
    }
    

    这也可能是最快的方法,因为 256 字节的表很容易放入您的 L1 缓存中。如果您确实想将其他字符转换为'.' 而不是正确转换它们,请像这样修改表格:

    import string
    
    print 'static const char kEbcdicToAscii[256] = {';
    for i in range(256):
        asc = chr(i).decode('cp500')
        if asc not in string.ascii_letters + string.digits + ' <=>()+-*/&|!$#@.,;%_?"':
            asc = '.'
        print '    %d,' % ord(asc)
    print '};'
    

    【讨论】:

      猜你喜欢
      • 2022-12-13
      • 1970-01-01
      • 2016-06-21
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多