【问题标题】:Optimizing RGBA8888 to RGB565 conversion with NEON使用 NEON 优化 RGBA8888 到 RGB565 的转换
【发布时间】:2011-12-04 04:33:03
【问题描述】:

我正在尝试使用 NEON 矢量指令集在 iOS 上优化图像格式转换。我认为这会很好地映射到那个,因为它处理了一堆相似的数据。

不过,我的尝试并没有那么顺利,与幼稚的 c 实现相比,只实现了边际加速:

for(int i = 0; i < pixelCount; ++i, ++inPixel32) {
    const unsigned int r = ((*inPixel32 >> 0 ) & 0xFF);
    const unsigned int g = ((*inPixel32 >> 8 ) & 0xFF);
    const unsigned int b = ((*inPixel32 >> 16) & 0xFF);
    *outPixel16++ = ((r >> 3) << 11) | ((g >> 2) << 5) | ((b >> 3) << 0);
}

iPad 2 上的 1 百万像素图像阵列:

格式为 [min avg max n=number of timer samples] 以毫秒为单位

C: [14.446 14.632 18.405 n=1000]ms

霓虹灯: [11.920 12.032 15.336 n=1000]ms

我对 NEON 实现的尝试如下:

    int i;
const int pixelsPerLoop = 8;
for(i = 0; i < pixelCount; i += pixelsPerLoop, inPixel32 += pixelsPerLoop, outPixel16 += pixelsPerLoop) {
    //Read all r,g,b pixels into 3 registers
    uint8x8x4_t rgba  = vld4_u8(inPixel32);
    //Right-shift r,g,b as appropriate
    uint8x8_t r = vshr_n_u8(rgba.val[0], 3);
    uint8x8_t g = vshr_n_u8(rgba.val[1], 2);
    uint8x8_t b = vshr_n_u8(rgba.val[2], 3);

    //Widen b
    uint16x8_t r5_g6_b5 = vmovl_u8(b);
    //Widen r
    uint16x8_t r16 = vmovl_u8(r);
    //Left shift into position within 16-bit int
    r16 = vshlq_n_u16(r16, 11);
    r5_g6_b5 |= r16;

    //Widen g
    uint16x8_t g16 = vmovl_u8(g);
    //Left shift into position within 16-bit int
    g16 = vshlq_n_u16(g16, 5);

    r5_g6_b5 |= g16;

    //Now write back to memory
    vst1q_u16(outPixel16, r5_g6_b5);        
}
//Do the remainder on normal flt hardware

代码通过 LLVM 3.0 编译成以下(.loc 和额外的标签被移除):

_DNConvert_ARGB8888toRGB565:
    push    {r4, r5, r7, lr}
    mov r9, r1
    mov.w   r12, #0
    add r7, sp, #8
    cmp r2, #0
    mov.w   r1, #0
    it  ne
    movne   r1, #1
    cmp r0, #0
    mov.w   r3, #0
    it  ne
    movne   r3, #1
    cmp.w   r9, #0
    mov.w   r4, #0
    it  ne
    movne   r4, #1
    tst.w   r9, #3
    bne LBB0_8
    ands    r1, r3
    ands    r1, r4
    cmp r1, #1
    bne LBB0_8
    movs    r1, #0
    lsr.w   lr, r9, #2
    cmp.w   r1, r9, lsr #2
    bne LBB0_9
    mov r3, r2
    mov r5, r0
    b   LBB0_5
LBB0_4:
    movw    r1, #65528
    add.w   r0, lr, #7
    movt    r1, #32767
    ands    r1, r0
LBB0_5:
    mov.w   r12, #1
    cmp r1, lr
    bhs LBB0_8
    rsb r0, r1, r9, lsr #2
    mov.w   r9, #63488
    mov.w   lr, #2016
    mov.w   r12, #1
LBB0_7:
    ldr r2, [r5], #4
    subs    r0, #1
    and.w   r1, r9, r2, lsl #8
    and.w   r4, lr, r2, lsr #5
    ubfx    r2, r2, #19, #5
    orr.w   r2, r2, r4
    orr.w   r1, r1, r2
    strh    r1, [r3], #2
    bne LBB0_7
LBB0_8:
    mov r0, r12
    pop {r4, r5, r7, pc}
LBB0_9:
    sub.w   r1, lr, #1
    movs    r3, #32
    add.w   r3, r3, r1, lsl #2
    bic r3, r3, #31
    adds    r5, r0, r3
    movs    r3, #16
    add.w   r1, r3, r1, lsl #1
    bic r1, r1, #15
    adds    r3, r2, r1
    movs    r1, #0
LBB0_10:
    vld4.8  {d16, d17, d18, d19}, [r0]!
    adds    r1, #8
    cmp r1, lr
    vshr.u8 d20, d16, #3
    vshr.u8 d21, d17, #2
    vshr.u8 d16, d18, #3
    vmovl.u8    q11, d20
    vmovl.u8    q9, d21
    vmovl.u8    q8, d16
    vshl.i16    q10, q11, #11
    vshl.i16    q9, q9, #5
    vorr    q8, q8, q10
    vorr    q8, q8, q9
    vst1.16 {d16, d17}, [r2]!
Ltmp28:
    blo LBB0_10
    b   LBB0_4

完整代码可在https://github.com/darknoon/DNImageConvert 获得任何帮助,谢谢!

【问题讨论】:

    标签: iphone ios assembly arm neon


    【解决方案1】:

    现在,手动优化的 NEON 实现已为 XCode 做好准备:

    /* IT DOESN'T WORK!!! USE THE NEXT VERSION BELOW.
     * BGRA2RGB565.s
     *
     * Created by Jake "Alquimista" Lee on 11. 11. 1..
     * Copyright 2011 Jake Lee. All rights reserved.
     */
    
    
        .align 2
        .globl _bgra2rgb565_neon
        .private_extern _bgra2rgb565_neon
    
    // unsigned int * bgra2rgb565_neon(unsigned int * pDst, unsigned int * pSrc, unsigned int count);
    
    
    //ARM
    pDst        .req    r0
    pSrc        .req    r1
    count       .req    r2
    
    //NEON
    blu         .req    d16
    grn         .req    d17
    red         .req    d18
    alp         .req    d19
    rg          .req    red
    gb          .req    blu
    
    _bgra2rgb565_neon:
        pld     [pSrc]
        tst     count, #0x7
        movne   r0, #0
        bxne    lr
    
    loop:
        pld     [pSrc, #32]
        vld4.8  {blu, grn, red, alp}, [pSrc]!
        subs    count, count, #8
        vshr.u8 red, red, #3
        vext.8  rg, grn, red, #5
        vshr.u8 grn, grn, #2
        vext.8  gb, blu, grn, #3
        vst2.8  {gb, rg}, [pDst]!
        bgt     loop
    
        bx      lr
    

    这个版本会比你建议的快很多倍:

    • 通过 PLD 提高缓存命中率

    • 不需要转换为“long”

    • 循环中的指令更少

    尽管如此,仍有一些优化空间,您可以修改循环,使其每次迭代转换 16 个像素而不是 8 个像素。 然后,您可以安排指令来完全避免两个停顿(这在上面的这个 8/迭代版本中根本不可能)并另外受益于 NEON 的双发功能。

    我没有这样做是因为它会使代码难以理解。

    了解 VEXT 应该做什么很重要。

    现在由您决定。 :)

    我验证了这段代码可以在 Xcode 下正确编译。 虽然我很确定它也能正常工作,但我不能保证这一点,因为我没有测试环境。 如果出现故障,请告诉我。到时候我会改正的。

    嘿嘿

    ================================================ ================================

    嗯,这是改进的版本。

    由于 VSRI 指令的性质不允许除目标之外的两个操作数,因此无法创建关于寄存器分配的更健壮的操作数。

    请检查源图像的图像格式。 (元素的确切字节顺序)

    如果不是 B、G、R、A,这是 iOS 上的默认和原生之一,您的应用程序将严重受到 iOS 内部转换的影响。

    如果出于某种原因绝对无法更改此设置,请告诉我。 我会写一个与之匹配的新版本。

    PS : 我忘了去掉函数原型开头的下划线。现在没了。

    /*
     * BGRA2RGB565.s
     *
     * Created by Jake "Alquimista" Lee on 11. 11. 1..
     * Copyright 2011 Jake Lee. All rights reserved.
     *
     * Version 1.1
     * - bug fix
     *
     * Version 1.0
     * - initial release
     */
    
    
        .align 2
        .globl _bgra2rgb565_neon
        .private_extern _bgra2rgb565_neon
    
    // unsigned int * bgra2rgb565_neon(unsigned int * pDst, unsigned int * pSrc, unsigned int count);
    
    
    //ARM
    pDst        .req    r0
    pSrc        .req    r1
    count       .req    r2
    
    //NEON
    blu         .req    d16
    grn         .req    d17
    red         .req    d18
    alp         .req    d19
    
    gb          .req    grn
    rg          .req    red
    
    _bgra2rgb565_neon:
        pld     [pSrc]
        tst     count, #0x7
        movne   r0, #0
        bxne    lr
    
    .loop:
        pld     [pSrc, #32]
        vld4.8  {blu, grn, red, alp}, [pSrc]!
        subs    count, count, #8
    
        vsri.8  red, grn, #5
        vshl.u8 gb, grn, #3
        vsri.8  gb, blu, #3
    
        vst2.8  {gb, rg}, [pDst]!
        bgt     .loop
    
        bx      lr
    

    【讨论】:

    • 哎呀,现在我发现使用 VSRI 会带来更好的性能:
    • 非常感谢您的实施!它确实看起来比我的快,但是当我将它放入 Xcode 项目时,我遇到了测试失败。
    • 此代码现在已签入github.com/darknoon/DNImageConvert/tree/jake-alquimista-lee 的分支,但它似乎没有返回正确的结果。我去看看……
    • 问题可能是字节顺序引起的。如果您逐字节读取像素,则 iOS 的默认字节顺序为 B、G、R、A。其他任何事情都会导致内部转换,这将消耗宝贵的周期。请检查您使用的图像格式。同时,我将使用 VSRI 而不是 VEXT 创建一个新版本,并且在字节顺序方面更加健壮。很快再见。
    • 我在函数原型中做错了。下划线现在被删除了。
    【解决方案2】:

    如果您使用的是 iOS 或 OS X,那么您可能会很高兴在 Accelerate.framework 中发现 vImageConvert_RGBA8888toRGB565() 和朋友。此函数将 8 位值四舍五入到最接近的 565 值。

    要获得更好的抖动效果,其质量与 8 位颜色几乎无法区分,请尝试 vImageConvert_AnyToAny():

    vImage_CGImageFormat RGBA8888Format = 
    {
        .bitsPerComponent = 8,
        .bitsPerPixel = 32,
        .bitmapInfo = kCGBitmapByteOrderDefault | kCGImageAlphaNoneSkipLast,
        .colorSpace = NULL,  // sRGB or substitute your own in
    };
    
    vImage_CGImageFormat RGB565Format = 
    {
        .bitsPerComponent = 5,
        .bitsPerPixel = 16,
        .bitmapInfo = kCGBitmapByteOrder16Little | kCGImageAlphaNone,
        .colorSpace = RGBA8888Format.colorSpace,  
    };
    
    
    err = vImageConverterRef converter = vImageConverter_CreateWithCGImageFormat(
             &RGBA8888Format, &RGB565Format, NULL, kvImageNoFlags, &err );
    
    err = vImageConvert_AnyToAny( converter, &src, &dest, NULL, kvImageNoFlags );
    

    这些方法中的任何一种都将被矢量化和多线程以获得最佳性能。

    【讨论】:

      【解决方案3】:

      您可能希望使用 vld4q_u8() 而不是 vld4_u8() 并相应地调整其余代码。很难说问题出在哪里,但汇编器看起来并不算太糟糕。

      【讨论】:

        【解决方案4】:

        (我对 NEON 不熟悉,对 Ipad2 的内存系统也不是很了解,但这是我们过去使用 88110 像素操作所做的事情,它是当今 SIMD 扩展的早期先驱)

        内存延迟有多大?

        您能否通过展开内部循环并在 ARM 从内存中提取“下一个”值时对“前一个”值运行 NEON 指令来隐藏它?简要浏览一下 NEON 手册,您可以同时运行 ARM 和 NEON 指令。

        【讨论】:

        • 让 ARM 与 NEON 并行工作听起来很诱人,但这不是很实用——如果不是不可能的话。虽然 ARM2NEON 传输速度很快,但 NEON2ARM 非常慢。从理论上讲,可以让它们各自使用独立的数据块并行工作,但 NEON 在每条指令上可以做的事情比 ARM 多得多,以至于 ARM 在这几个周期内几乎无法完成任何事情。虽然循环控制、条件分支等都是免费的,但还是很不错的。
        • 谢谢 Jake,知道我在不久的将来什么时候真正开始 NEONing 会很有用。
        【解决方案5】:

        我不认为将 vld4_u8 转换为 vld4q_u8 会导致性能提高。

        代码看起来很简单。我不擅长 ASM,所以需要一些时间来深入研究它。

        霓虹灯看起来很简单。但我不确定是否使用 r5_g6_b5 |= g16 代替 vorrq_u16

        也请查看优化级别。据我所知,neon 代码优化级别最高为 1。因此,当参考代码和 neon 代码都考虑默认优化时,性能可能会有所不同,因为 DEFAULT 的参考优化级别可能是不同。

        我在 neon 中找不到任何可以改进当前代码的区域。

        【讨论】:

          猜你喜欢
          • 1970-01-01
          • 2014-03-03
          • 1970-01-01
          • 1970-01-01
          • 2017-12-02
          • 1970-01-01
          • 2018-06-07
          • 1970-01-01
          • 2013-10-10
          相关资源
          最近更新 更多