【发布时间】:2018-07-16 07:52:36
【问题描述】:
我正在尝试构建一个可以使用 LSTM 单元识别手写句子的光学字符识别系统。
现在我从文献中了解到,您需要向 LSTM 单元提供两个输入:一个是您尝试识别的图像,第二个是它已经预测的单词序列。因此,例如,如果我有一张图片,上面写着“我喜欢机器学习”,我将创建以下输入对:
- 图片+startseq
- 图像+startseq+I
- 图像+startseq+我+爱
因此,对于每个输入,您希望 LSTM 预测上述序列的下一个单词,即 I、love、machine。
我遇到的问题是我无法弄清楚如何将图像和前一个序列输入到 LSTM 单元。我是否将我的图像(二维矩阵)划分为行/列向量,并一次将它们发送到 LSTM,并且在我完成之后发送之前的单词序列?但是这样我会有很长的输入序列,这可能会导致很长的收敛时间。
我知道图像字幕任务使用预训练的神经网络对输入图像进行矢量化处理,但对于光学字符识别系统是否可以这样做,即这会导致准确性问题吗?
【问题讨论】: