[Computuer Vision] lecture10-20

内容说明

该博客内容主要为The Ancient Secrets of Computer Vision的补充说明
本文主要为机器学习的内容
如果需要系统学习请到该网站自行观看和学习该课程的视频和课件

缺失的lecture15可以看吴老师第四讲的第四周的内容

基础概念

[Computuer Vision] lecture10-20
可以先简单把机器学习理解寻找一条可以进行分类的直线的参数，有点类似线性回归
如：输入X，输出Y，Y>0则为红色，Y<0则为蓝色

下图表示权重对参数的影响
[Computuer Vision] lecture10-20
关于参数的详细学习过程请看lecture10的62-72
一点说明：
学习bias时，所有数据（x,y）都应该变成（x,y,1）
即对于ax+by+c=0, (a b c) 和 (x,y,1) 向量相乘

神经网络通过不断的学习调整参数，目的是为了得到最优解，即极值

为了防止以下情况出现，会把距离d也作为衡量标准
具体的数学计算请移步lecture11

[Computuer Vision] lecture10-20

计算

[Computuer Vision] lecture10-20
推导看课件吧，太多了lecture12
而且我入门靠得不是这个视频，整理得不清楚，将就一下哈

卷积神经网络

强推吴老师机器学习的视频！！！！

为了解决连接过多的问题，而且距离远的点信息相关度不高，所以分割
[Computuer Vision] lecture10-20
所以可以理解对图像处理的时候是一块接着一块处理的

名词解释

Kernel ：核，可能称为filter（有区别，不讨论），就是图像乘以的那个框框
不理解的可以看上一篇的卷积部分
Pad：补丁，卷积过后的图尺寸会变小，pad就是把原图周围补上，可以使得再卷积后的图尺寸大小不变
Stride：步伐，kernel是对原图中的pixel操作的，如果一个pixel接着一个pixel处理则stride为1，跳着来，则stride为2，注意行跳一格，列也会跳一个
im2col：im2col的作用就是优化卷积运算 1
详细的函数说明
pool：池，相当于缩小图片尺寸，如4 * 4 -> 2 * 2用 max pool ，则第一个的值为第一个2 * 2中的最大值
window：窗口，就是上面对图像处理时的红色方块的大小
也可以看看这个

发展史

挑战失败
[Computuer Vision] lecture10-20

物体检测

先判断存在与否，再判断是说明东西，在哪个地方
[Computuer Vision] lecture10-20

交并比函数

一般大于0.5则说明此处确实有物体存在
[Computuer Vision] lecture10-20

非极大值抑制

当window比较小时，可以用非极大值抑制来避免对同一物体进行多次检测
把除了最大概率之外的且和最大概率的边框重合率（用交并比函数）很高，那么这个结果就会被抑制甚至丢除

语义分割

顾名思义，把不同的东西用不同的颜色表示
即检测到某物体后，用反解码得到最终的图片
了解
 详情

[Computuer Vision] lecture10-20

自然语言

语言需要上下文结合理解，需要让修正参数的函数中引入时间
[Computuer Vision] lecture10-20

生成对抗网络GAN 3

生成对抗网络 GAN —— Generative Adversarial Network
GAN有两个重要的角色：一个生成器（Generator），还有一个判别器（Discriminator）。
GAN的思想简单来说就是这两个角色之间的博弈：生成器生成图片，并试图尽自己最大的努力去欺骗判别器——这是一张自然的图片！而判别器则是尽可能的去辨别——不，这是一张生成的图片！
最终生成器将会作出最好的采样，得到最为接近真实的图片，而判别器将束手无策！

目录

内容说明

基础概念

计算

卷积神经网络

名词解释

发展史

物体检测

交并比函数

非极大值抑制

语义分割

自然语言

生成对抗网络GAN 3