目录
1.数据认知
原本认为这一块应当会有很多比较成熟的开源软件,但是实际情况好像并非想象这样,单纯基于图像的标注工具较多,但是视频类相对较少。
看到很多简单场景下的视频数据标注,仍然采用传统的全人工标注,效率低下数据标注不仅造成资金浪费,更会拖沓开发进度。半自动化标注在很多场景下效率至少是人工的效率的10倍以上,我们为何不尝试呢?算法人员应当投入更多精力到数据采集、数据标注和数据清洗过程中去,深入了解生产环境和应用场景,相信这会对业务大有裨益。
就一般的识别和检测的场景数据,现阶段数据获取的手段主要有:1、部署硬件采集设备,主要为彩色相机和深度相机 2、实验室模拟真实环境,进行高仿真采集3、网上爬虫爬取相关数据,然后进行数据清洗 4、将目标元素和背景合成,伪造数据。5、使用数据增强技术,扩充数据集。无论如何我们应当收集并构建一个无线逼近实际场景的数据集,个人认为:数据集的构建是算法业务的起跑线,数据是资产,是分水岭,是门槛。
2.标注工具
考虑到很多外包数据标注人员的实际情况,主要调研了基于windows下半自动化视频数据标注工具。半自动化标注工具现阶段主要采用基于追踪算法和检测算法自动标注出目标物体的位置。基于windows的主要工具:
2.1、标注精灵助手
工具官网:http://www.jinglingbiaozhu.com/
追踪效果不佳,框的位置不准确。一直没想太明白,这个软件的追踪算法做的这么差?
2.2、VOTT
工具官网:https://github.com/Microsoft/VoTT/releases
项目配置的选项较多,全英文,且模型加载有点慢,不利于后期培训外包人员。
2.3、VITBAT
工具官网:https://vitbat.weebly.com/
下载链接:https://pan.baidu.com/s/1IxaKPyfy9qviXQstaGj0Eg密码:92sp
整个软件基于matlab GUI进行开发,因此需要安装MATLAB Runtime。操作比较简单,容易快速上手,官网还有指导手册。
首先加载视频,创建“New target",点击”Annotate“,然后拖动视频条,调整对应帧的框的位置,软件自动将框的位置记录到模型当中,最后,向前或向后播放视频,即可浏览最终的效果。
以一条抖音视频为例的效果:
注意:点击”file“文件下的”Save Annotated video“,文件夹下并未出现追踪的框的列表文件。需要退出该软件,在相应的文件夹下才会出现标注结果的文件。
该标注软件其实不友好,ID不能自定义,采集的帧率也不能配置。后期只能进一步二次加工。
此外,该软件还有行为(握手、拥抱、打斗,交谈。。。)标注功能,在官网中有相应的视频,如果看不了,建议上B站搜索。
3.参考资料
3.1、https://blog.csdn.net/tju_cc/article/details/82703982
3.2、https://blog.csdn.net/learning_tortosie/article/details/81260862