吴恩达机器学习笔记——照片OCR

照片OCR是一种可以识别图片中的文字内容的技术。

吴恩达机器学习笔记——照片OCR

照片OCR的流水线可以分为三步：

吴恩达机器学习笔记——照片OCR

吴恩达机器学习笔记——照片OCR

使用一个以一定步长移动的框，对框住的区域使用模型判断是否为正样本。

在本例中，当框被判断为y=1时，就说明是字母切割区域，在中间画一条切割竖线。

吴恩达机器学习笔记——照片OCR

吴恩达机器学习笔记——照片OCR

使用字符训练集对模型进行训练，之后用于字符图片的识别。

图片中行人的识别：

引入行人的正负样本训练集

吴恩达机器学习笔记——照片OCR

由于不管行人距离镜头的远近，行人的长宽比类似，我们使用滑动窗口的方式，使用一定步长的不同大小的方框对图片进行扫描，将框内内容缩放或扩大到和训练集的比例一致后放入模型判断，当前内容是否为一个行人。吴恩达机器学习笔记——照片OCR

吴恩达机器学习笔记——照片OCR

最终得到识别结果。

吴恩达机器学习笔记——照片OCR