用于清理文档的深度学习模型答案

【问题标题】：Deep learning model to clean documents用于清理文档的深度学习模型
【发布时间】：2019-04-08 13:53:21
【问题描述】：

我正在尝试构建一个卷积自动编码器，它可以从官方文档中去除笔迹，如圆圈、下划线等。

我有文档的原始、干净的软拷贝和带有笔迹的复印副本。

复印后的副本显然与原始文档不完全匹配，并且在扫描时会略微倾斜或偏移等。

此外，由于文档尺寸很大（2360、1650），我必须将图像分成 4 个大小的一半（587、412）才能输入到我的模型中。

我想知道的是，上述问题在训练时会导致任何问题吗？有什么办法可以纠正吗？

任何帮助将不胜感激。

谢谢

编辑：

如您所见（希望如此！！），由于复印时的偏斜或平移，噪点图像略有不同。

【问题讨论】：

【解决方案1】：

我认为这不会造成任何问题。但是，如果是这样，您始终可以加载图像，将其调整为所需的形状，然后将其输入到模型中。

【讨论】：

嗨...调整大小不是问题...问题是我嘈杂的图像数据是复印的，扫描的副本带有手写下划线、圆圈等。复印时...页面是扭曲和倾斜，这意味着图像的特定 (587, 412) 切割将不会与原始图像完全匹配（内容方面）......因为在训练时我没有看到任何损失减少