内容说明

该博客内容主要为The Ancient Secrets of Computer Vision的补充说明
本文主要为机器学习的内容
如果需要系统学习请到该网站自行观看和学习该课程的视频和课件

缺失的lecture15可以看吴老师第四讲的第四周的内容

基础概念

[Computuer Vision] lecture10-20
可以先简单把机器学习理解寻找一条可以进行分类的直线的参数,有点类似线性回归
如:输入X,输出Y,Y>0则为红色,Y<0则为蓝色

下图表示权重对参数的影响
[Computuer Vision] lecture10-20
关于参数的详细学习过程请看lecture10的62-72
一点说明:
学习bias时,所有数据(x,y)都应该变成(x,y,1)
即对于ax+by+c=0, (a b c) 和 (x,y,1) 向量相乘

神经网络通过不断的学习调整参数,目的是为了得到最优解,即极值

为了防止以下情况出现,会把距离d也作为衡量标准
具体的数学计算请移步lecture11

[Computuer Vision] lecture10-20

计算

[Computuer Vision] lecture10-20[Computuer Vision] lecture10-20
推导看课件吧,太多了lecture12
而且我入门靠得不是这个视频,整理得不清楚,将就一下哈

卷积神经网络

强推吴老师机器学习的视频!!!!

为了解决连接过多的问题,而且距离远的点信息相关度不高,所以分割
[Computuer Vision] lecture10-20
所以可以理解对图像处理的时候是一块接着一块处理的
[Computuer Vision] lecture10-20

名词解释

Kernel :核,可能称为filter(有区别,不讨论),就是图像乘以的那个框框
不理解的可以看上一篇的卷积部分
Pad:补丁,卷积过后的图尺寸会变小,pad就是把原图周围补上,可以使得再卷积后的图尺寸大小不变
Stride:步伐,kernel是对原图中的pixel操作的,如果一个pixel接着一个pixel处理则stride为1,跳着来,则stride为2,注意行跳一格,列也会跳一个
im2col:im2col的作用就是优化卷积运算 1
详细的函数说明
pool:池,相当于缩小图片尺寸,如4 * 4 -> 2 * 2用 max pool ,则第一个的值为第一个2 * 2中的最大值
window:窗口,就是上面对图像处理时的红色方块的大小
也可以看看这个

发展史

挑战失败
[Computuer Vision] lecture10-20

物体检测

先判断存在与否,再判断是说明东西,在哪个地方
[Computuer Vision] lecture10-20

交并比函数

一般大于0.5则说明此处确实有物体存在
[Computuer Vision] lecture10-20

非极大值抑制

当window比较小时,可以用非极大值抑制来避免对同一物体进行多次检测
把除了最大概率之外的且和最大概率的边框重合率(用交并比函数)很高,那么这个结果就会被抑制甚至丢除

语义分割

顾名思义,把不同的东西用不同的颜色表示
即检测到某物体后,用反解码得到最终的图片
了解
详情

[Computuer Vision] lecture10-20
[Computuer Vision] lecture10-20

自然语言

语言需要上下文结合理解,需要让修正参数的函数中引入时间
[Computuer Vision] lecture10-20[Computuer Vision] lecture10-20

生成对抗网络GAN 3

生成对抗网络 GAN —— Generative Adversarial Network
GAN有两个重要的角色:一个生成器(Generator),还有一个判别器(Discriminator)。
GAN的思想简单来说就是这两个角色之间的博弈:生成器生成图片,并试图尽自己最大的努力去欺骗判别器——这是一张自然的图片!而判别器则是尽可能的去辨别——不,这是一张生成的图片!
最终生成器将会作出最好的采样,得到最为接近真实的图片,而判别器将束手无策!

相关文章: