这篇博客写得比较详细了,我这就不多重复了,只写下我看完论文的一些心得。
https://blog.csdn.net/tmylzq187/article/details/51500379?depth_1-utm_source=distribute.pc_relevant.none-task&utm_source=distribute.pc_relevant.none-task

Recursive Recurrent Nets with Attention Modeling for OCR in the Wild,该模型有三部分组成,分别是recursive CNN、RNN(Recurrent neural net work)、soft attention model。如下图所示。recursive CNN用于图片encoding(图片特征提取),RNN用于字符水平的语言模型,attention 关注更好的图片特征使用。
同时本模型不用基于字典。

OCR之R^2AM(Recursive Recurrent Nets with Attention Modeling for OCR in the Wild)
Recursive Recurrent Nets with Attention Modeling for OCR in the Wild,该模型主要是预测裁剪图片的单个单词。

CNN层

提升CNN对文本上下关系预测能力有三种做法:
第一种是使用大的kernel size,或者更深的网络,增加响应的感受域。
第二种是采用recursive;
第三种是采用recurrent。

本论文发现使用recursvie 性能更加,也许是因为recursive cnn相比recurrent而言,可以阻止 错误信号直接反向传播。

在recursive CNN里分为初始 inter-layer feed-forword 权重和 intra-layer recursive 权重,

RNN 层

因子分解的两层效果最好,第一层RNN 聚焦于字符级别的模型,第二次RNN聚焦于语音的联合统计和图片特征。比没有因子分解的RNN效果好。

该模型没有使用LSTM,因为本文主要识别8个字符左右的短字符,不是很长的字符识别。用了LSTM也不会提升太多效用。

Attention modeling

Attention 机制可以让模型专注于输入特征的最重要片段。
Attention 可以分为hard attention 和soft attention。hard attention 主要是学习一系列离散的位置,而soft attention 可以进行端到端的标准反向传播训练。
Attention 位于两个RNN层中间。

总结,该模型没有用CTC,所以只识别单个单词。不过可以在最后结合CTC识别长字符,多个单词。本模型和CRNN类似,CRNN是CNN+RNN(LSTM)+CTC。

相关文章:

  • 2021-07-06
  • 2022-12-23
  • 2021-04-28
  • 2021-06-07
  • 2021-06-04
  • 2021-11-29
  • 2021-12-09
猜你喜欢
  • 2021-04-22
  • 2021-07-04
  • 2021-08-25
  • 2021-06-09
  • 2021-10-20
  • 2022-12-23
相关资源
相似解决方案