大致思路

 通过阅读开源的代码,我发现现在cuda优化lbp的算法基本都是将每一个节点组装成一个类实例,当需要进行计算msg,或者传播的时候,通过kernel函数调用成员函数(__device__)对该节点的数据进行所要求的操作。至于每个节点的数据成员,如果该lbp算法的label和msg比较简单,直接使用基本数据类型即可。
 反之,则要慎重考虑。这里提供一个思路:可以将所有节点的同一种数据,提前计算size,在kernel函数外统一分配空间,然后使用cudaMemcpy从内存传输到显存。然后每个节点要维护相应的指针,指向各自数据的起始位置。

msg样式

 在论文1中msg格式如下:
还不太会写latex,先空着吧,还是下发个截图吧。

CUDA优化LBP(loopy belief propegation)

CUDA编程注意事项

 基本上不管是__device__还是__kernel___,其中的cuda语法与C基本上一致,是的,和C一致,所以不要去尝试使用什么vector,或者opencv的mat
 另外,gpu喜欢简单,你让一个小小的线程去运行一段五六十行,带判断、带跳转、带开方乘方的代码,属实是耍流氓的行为。(虽然我就是这么干的)
 下一篇我会对代码进行讲解,更细致的内容会到那时候再说。

性能分析

 这次开发原本是要用在项目中的,但是速度无法满足要求,所以就只能拿来发blog的。我认为速度不能达标不是我的锅,因为该论文中的msg计算方式相当复杂,其中的es项计算量逼近8亿了。


  1. Garcia R R , Zakhor A . Consistent Stereo-Assisted Absolute Phase Unwrapping Methods for Structured Light Systems[J]. IEEE Journal of Selected Topics in Signal Processing, 2012, 6(5):411-424. ↩︎

相关文章: