无法改进文档图像的掩码 RCNN 模型？答案

【问题标题】：Unable to improve the mask RCNN model for document images?无法改进文档图像的掩码 RCNN 模型？
【发布时间】：2020-02-28 22:42:10
【问题描述】：

我正在训练一个模型来从我使用 mask rcnn 检测图像中的字段的简历中提取所有必要的字段。我已经为 1000 个训练样本训练了我的 mask RCNN 模型，其中包含 49 个要提取的字段。我无法提高准确性。如何改进模型？是否有任何预训练的权重可能会有所帮助？

阅读以下文字有困难 -

【问题讨论】：

您目前正在应用哪些增强功能？
我暂时不使用增强。
通过尝试不同的增强来提供更多示例，例如裁剪简历的子部分并将其输入网络以提取字段。尝试自适应学习率。
好的，我正在训练尺寸为（256、256、3）的图像，我是否也应该增加图像的尺寸？训练样本的最小大小应该是多少？
说实话，我不知道从哪里开始。我相信只有详细说明你的问题，你才能得到比较满意的答案。

标签： python keras deep-learning object-detection

【解决方案1】：

另一种选择是使用神经网络，例如 - PixelLink：通过实例分割检测场景文本

https://arxiv.org/pdf/1801.01315.pdf

【讨论】：

【解决方案2】：

您可以通过两种不同的方式分解问题：第 1 步 - OCR 似乎是获取数据的最直接方式。但是增加图像大小，从而增加分辨率，否则，您可能会丢失数据。第 2 步 - 存储每个 OCRed 单词的坐标。在这种情况下，这是有价值的信息。单词如何排列具有重要意义。第 3 步 - 此时您可以尝试使用基本的位置聚类对单词进行分组。但是，这很容易在相关文本的列式和基于行的分布上失败。
第 4 步 - 看看您是否可以识别这些集群属于 49 个标签中的哪一个。查看 Hidden Markov 模型的文本分类，Baum-Welch 算法。即先选择基本模型。

或以上忽略了固有的分类机会，即格式正确的简历的图像。

第 1 步 - 训练您的模型以将图像分割成没有 OCR 的部分。一个好的模型不应该分解句子、表格等。这种方法可能会利用分隔线等。还有机会减小图像的大小，因为您还没有进行 OCRing。第 2 步 -OCR 图像部分并尝试与上述类似的分类。

【讨论】：

感谢您的意见。最后一种方法正是我正在做的，我的问题是如何改进 maskrcnn 模型。

【解决方案3】：

看起来您想要进行文本分类/处理，您需要从文本中提取细节，但您正在应用对象检测算法。我相信你需要使用 OCR 来提取文本（如果你有 cv 作为图像）并使用文本分类模型。查看以下链接，了解有关文本分类的更多信息 -

https://medium.com/@armandj.olivares/a-basic-nlp-tutorial-for-news-multiclass-categorization-82afa6d46aa5

https://www.tensorflow.org/tutorials/tensorflow_text/intro

【讨论】：

赞成。正是我上次问这个问题时所说的（我被否决了）stackoverflow.com/questions/58748719/…
@ezekiel 我们将如何明智地提取表列？请参考问题内的更新图像。此外，OCR 可能无法正确读取单词，这不会影响文本分类器吗？最后 OCR 将用于读取字段，mask rcnn 用于将模型引导到技能或其他字段可能存在的合适区域。
所以所有的简历都是相同的格式？如果没有更多信息，很难提出一种方法。使用 opencv 或类似方法进行线检测并使用它来指定要馈送到 OCR 的区域可能是有意义的。您也许可以使用正则表达式和字典或类似的东西来尝试处理阅读中的小错误。
@ezekiel 我尝试了线路检测，但它不适用于上面问题中给出的示例。而且我还没有解决上述问题的方法