【发布时间】:2017-12-22 00:47:12
【问题描述】:
老实说,我只是卡住了,无法思考。我一直在努力创建一个可以阅读字母的惊人模型,但是我该如何继续阅读单词、句子、段落和全文呢?
这是一个普遍的问题,所以请原谅我没有提供代码,但假设我已经成功训练了一个网络来识别多种字母和多种字体,图像中有各种不同的噪声和失真。
(只是为了技术,模型训练的图像只是36*36灰度图像,模型是一个简单的分类器,有一些conv2d层)
现在我想使用这个训练有素的模型和它的所有参数,并给它一些可供阅读的东西,以变成一个完整的 OCR 程序。这就是我卡住的地方。我想给程序一张纸的照片/扫描,让它识别所有的字母。但是,当图像明显大于单字母训练的图像时,如何使用我的模型“预测”?
我尝试添加一个额外的conv2d 层,它会尝试读取图像部分的特征,但这太复杂了,我无法弄清楚。
我还查看了opencv 程序,这些程序可以识别图像中的文本位置并将其裁剪出来,但我找不到单独的单个字母,现在可以将这些字母提供给经过训练的模型以尝试阅读。
我的下一步是什么?
【问题讨论】:
标签: python opencv image-processing tensorflow ocr