机器学习11：应用之图片字符识别

问题简介及解决流程

机器学习11：应用之图片字符识别

以上三个流程可分别安排团队成员(1-5个)进行处理

机器学习11：应用之图片字符识别

PS：如果横着滑，滑完第一行后，要滑到下一行时，需要注意的是，也是按步长滑动下降到1+b行(如果b为步长)

机器学习11：应用之图片字符识别

如左图，以上白色区域便是检测到文本的区域；可以通过区域扩展(expansion)，使文本变成如右下图的整块

按正常使用逻辑回归识别即可
但是存在如何获取大量训练样本的问题，可以人工合成关于字符的训练集(不同字体、艺术字、旋转、缩放、扭曲、模糊化、随机背景等)
1. 左边是真实数据，右边是理想数据
2. 可以给左边的样本加上随机背景变成右边
3. 扭曲
同理，以上训练集扩展方法也可以应用于声音检测：

机器学习11：应用之图片字符识别

如上图，第一个声音是原始声音，第二个是模拟了通信差的情景，第三个是加上了人群声，第四个是加上了机器声

注意的是：
1. 不要仅仅加上随机/无意义的噪声就作为新样本，这样的样本帮助不大：
2. 在扩展训练集之前确定拥有低偏差高方差(通过学习曲线判断)的假设函数(分类器)，比如一直增加隐藏层或特征数量直到拥有低偏差分类器
3. 思考如果要获得10倍的数据需要花多长时间。(途径包括人工合成、自己收集和标记、自己掏钱从众包中获取（如亚马逊劳务众包平台“Amazon MechanicalTurk”）)

分析机器学习系统整个流程中，哪个步骤对准确度最有帮助，以免在不重要的步骤中花费过多精力。

机器学习11：应用之图片字符识别

可见，上图中，文本检测能够提高17%的准确度，对系统最有帮助。

机器学习11：应用之图片字符识别

由上图可见，面部检测的步骤是最重要的，应把精力重点放在改进面部检测。