【问题标题】:Deep learning model to clean documents用于清理文档的深度学习模型
【发布时间】:2019-04-08 13:53:21
【问题描述】:

我正在尝试构建一个卷积自动编码器,它可以从官方文档中去除笔迹,如圆圈、下划线等。

我有文档的原始、干净的软拷贝和带有笔迹的复印副本。

复印后的副本显然与原始文档不完全匹配,并且在扫描时会略微倾斜或偏移等。

此外,由于文档尺寸很大(2360、1650),我必须将图像分成 4 个大小的一半(587、412)才能输入到我的模型中。

我想知道的是,上述问题在训练时会导致任何问题吗?有什么办法可以纠正吗?

任何帮助将不胜感激。

谢谢

编辑:

如您所见(希望如此!!),由于复印时的偏斜或平移,噪点图像略有不同。

【问题讨论】:

  • 我没看清楚你的问题是什么?您可以毫无问题地拆分或调整训练数据的大小,但无论您对它们做什么,您也必须对测试数据进行处理。

标签: python deep-learning pytorch


【解决方案1】:

我认为这不会造成任何问题。但是,如果是这样,您始终可以加载图像,将其调整为所需的形状,然后将其输入到模型中。

【讨论】:

  • 嗨...调整大小不是问题...问题是我嘈杂的图像数据是复印的,扫描的副本带有手写下划线、圆圈等。复印时...页面是扭曲和倾斜,这意味着图像的特定 (587, 412) 切割将不会与原始图像完全匹配(内容方面)......因为在训练时我没有看到任何损失减少
猜你喜欢
  • 1970-01-01
  • 2018-10-27
  • 1970-01-01
  • 1970-01-01
  • 2017-10-22
  • 2018-02-03
  • 2013-11-07
  • 2020-02-12
  • 1970-01-01
相关资源
最近更新 更多