CUDA优化LBP(loopy belief propegation)

CUDA优化LBP

大致思路

msg样式

CUDA编程注意事项
性能分析

大致思路

通过阅读开源的代码，我发现现在cuda优化lbp的算法基本都是将每一个节点组装成一个类实例，当需要进行计算msg，或者传播的时候，通过kernel函数调用成员函数（__device__）对该节点的数据进行所要求的操作。至于每个节点的数据成员，如果该lbp算法的label和msg比较简单，直接使用基本数据类型即可。
反之，则要慎重考虑。这里提供一个思路：可以将所有节点的同一种数据，提前计算size，在kernel函数外统一分配空间,然后使用cudaMemcpy从内存传输到显存。然后每个节点要维护相应的指针，指向各自数据的起始位置。

msg样式

在论文¹中msg格式如下：
还不太会写latex,先空着吧，还是下发个截图吧。

CUDA优化LBP(loopy belief propegation)

CUDA编程注意事项

基本上不管是__device__还是__kernel___，其中的cuda语法与C基本上一致，是的，和C一致，所以不要去尝试使用什么vector，或者opencv的mat。
另外，gpu喜欢简单，你让一个小小的线程去运行一段五六十行，带判断、带跳转、带开方乘方的代码，属实是耍流氓的行为。（虽然我就是这么干的）
下一篇我会对代码进行讲解，更细致的内容会到那时候再说。

性能分析

这次开发原本是要用在项目中的，但是速度无法满足要求，所以就只能拿来发blog的。我认为速度不能达标不是我的锅，因为该论文中的msg计算方式相当复杂，其中的es项计算量逼近8亿了。

Garcia R R , Zakhor A . Consistent Stereo-Assisted Absolute Phase Unwrapping Methods for Structured Light Systems[J]. IEEE Journal of Selected Topics in Signal Processing, 2012, 6(5):411-424. ↩︎