【发布时间】:2020-05-08 12:59:03
【问题描述】:
我在一系列视频帧上运行 API 以跟踪场景中的对象,并且我正在提取每个对象的边界框坐标以计算每个边界框的中心。然而,在 ymin 和 ymax 坐标中会出现偏移。
场景是一个人在视野中行走,框架的底部与人的脚相匹配(这会推断出 ymin 和 ymax 值不会延伸到帧的停止。但是 API 给出了以下标准化框坐标 [452.26962089538574, 197.93473720550537, 1073.7505388259888, 639.3438720703125]。绝对坐标为 [0.41876816749572754, 0.10309100896120071, 0.9942134618759155, 0.3329916000366211] 供参考,视频为 1920 x 1080。
放入 MATLAB 视频标注器应用程序的同一帧(翻译成 [ymin xmin ymax xmax] 时)返回 [8.396575927734375, 57.50376892089844, 722.7988586425781, 431.51695251464844]。我知道它们不会完全匹配,因为我已经在框中手动绘制为基本事实(对于 x 坐标尤其如此),但是 ymin和 ymax 应该非常接近,并且这些结果看起来更加真实。
以前有人遇到过这种情况吗?当 API 运行推理时,边界框被正确绘制到图像上,所以我对正在发生的事情有点茫然。因为我直接从boxes = detection_graph.get_tensor_by_name('detection_boxes:0') 获取数据并将其存储在每次迭代中。
【问题讨论】:
标签: python tensorflow object-detection bounding-box