【深度学习】YOLO v1

参考

论文阅读笔记

一些重点

每个bounding box要预测(x, y, w, h)和confidence共5个值，每个网格还要预测一个类别信息，记为C类。则SxS个网格，每个网格要预测B个bounding box还要预测C个categories。输出就是S x S x (5*B+C)的一个tensor。注意：class信息是针对每个网格的，confidence信息是针对每个bounding box的。
举例说明: 在PASCAL VOC中，图像输入为448x448，取S=7，B=2，一共有20个类别(C=20)。则输出就是7x7x30的一个tensor。

每个grid有30维，这30维中，8维是回归box的坐标，2维是box的confidence，还有20维是类别。其中坐标的x,y用对应网格的offset归一化到0-1之间，w,h用图像的width和height归一化到0-1之间。各。损失函数的权重应该是有所区别的。

相关文章：

2021-06-07
2021-06-12
2021-09-28
2021-10-23
2021-08-28
2021-06-11
2021-07-20

猜你喜欢

2021-08-18
2022-12-23
2022-12-23
2021-10-03
2021-04-25
2021-11-11
2021-05-14

相关资源

下载 2023-02-10
下载 2023-04-05
下载 2022-12-25
下载 2023-02-06

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode