【问题标题】:How can I detect edges on an image of a document, and cut sections into seperate images?如何检测文档图像上的边缘,并将部分切割成单独的图像?
【发布时间】:2017-07-25 21:00:27
【问题描述】:

任务是获取文档的图像,并利用围绕不同“部分”的直线将图像拆分为不同的文档以进行进一步解析。不同“部分”的大小因页面而异(我们正在处理数千页)。以下是其中一张图片的样子:

文档布局示例:

图像分析/处理对我来说是全新的。到目前为止,我已经尝试使用 Scikit 图像边缘检测算法来找到“框”,并希望使用这些“坐标”来切割图像。但是,我尝试过的两种算法(Canny,Hough)在高灵敏度时将文本行作为“边缘”,而不是在低灵敏度时提取我想要的行。我可以编写一些自定义和低级别的东西来自己检测这些盒子,但我必须假设这是一个已解决的问题。

我的方法是否朝着正确的方向发展?谢谢!

【问题讨论】:

  • 你也有一些真实的输入图像吗?您展示的内容有助于说明这个概念。但您确实需要使用真实世界的输入。
  • 添加了一个真实的输入图像,尽管要解析的文档来自各种不同的来源。格式整体格式预计总是相似的,但行大小、语言、文本格式等容易发生变化。
  • 这似乎是计算机生成的图像,而不是由扫描仪或相机获取的图像。 (根据所有线条的完美水平/垂直程度来判断)所有输入都是这样的吗?如果是这样,那肯定会让任务变得更容易。
  • 假设是这样。我相信该图像是 pdftoppm 程序的输出,以防万一。
  • 我们正在尝试检测被黑线包围的“文章”,而不是被白色间隙包围的不同列。文章分为最多 4 个垂直列和最多 4 行,尽管有时文章很大并且覆盖整个页面或半页,如您在此处看到的那样。

标签: opencv image-processing edge-detection scikit-image canny-operator


【解决方案1】:

您似乎没有得到任何 OpenCV 答案,所以我尝试了 ImageMagick,就在命令行的终端中。 ImageMagick 安装在大多数 Linux 发行版上,并且可免费用于 macOS 和 Windows。该技术很容易适应 OpenCV,因此如果它适合您,您可以将其移植。

我的第一步是做一个 5x5 的箱形过滤器和 80% 的阈值,以消除噪声和扫描伪影,然后反转(可能是因为我打算使用形态学,但最终没有)。

convert news.jpg -depth 16 -statistic mean 5x5 -threshold 80% -negate z.png

然后我通过 “连接组件分析” 运行它并丢弃所有面积过小(低于 2000 像素)的 blob:

convert news.jpg -depth 16 -statistic mean 5x5 -threshold 80% -negate  \
   -define connected-components:verbose=true                           \
   -define connected-components:area-threshold=2000                    \
   -connected-components 4 -auto-level output.png

输出

Objects (id: bounding-box centroid area mean-color):
  110: 1254x723+59+174 686.3,536.0 901824 srgb(0,0,0)
  2328: 935x723+59+910 526.0,1271.0 676005 srgb(0,0,0)
  0: 1370x1692+0+0 685.2,712.7 399651 srgb(0,0,0)
  2329: 303x722+1007+911 1158.0,1271.5 218766 srgb(0,0,0)
  25: 1262x40+54+121 685.2,140.5 49820 srgb(255,255,255)
  109: 1265x735+54+168 708.3,535.0 20601 srgb(255,255,255)
  1: 1274x64+48+48 675.9,54.5 16825 srgb(255,255,255)
  2326: 945x733+54+905 526.0,1271.0 16660 srgb(255,255,255)  
  2327: 312x732+1003+906 1169.9,1271.5 9606 srgb(255,255,255)  <--- THIS ONE
  421: 403x15+328+342 528.6,350.1 4816 srgb(255,255,255)
  7: 141x23+614+74 685.5,85.2 2831 srgb(255,255,255)

字段在第一行进行了标记,但有趣的是第二个(块几何)和第四个字段(blob 区域)。如您所见,有 11 行,所以它在图像中找到了 11 个斑点。第二个字段,AxB+C+D 表示一个矩形 A 像素宽,B 像素高,其左上角距离图像左边缘 C 像素,从顶部向下 D 像素。

让我们看一下我用箭头标记的那个,它以2327: 312x732+1003+906 开头,然后在那个上面画一个矩形:

convert news.jpg -fill "rgba(255,0,0,0.5)" -draw "rectangle 1003,906 1315,1638" oneArticle.png

如果您想将该文章裁剪成新图片:

convert news.jpg -crop 312x732+1003+906 article.jpg

如果我们绘制所有其他框,我们会得到:

【讨论】:

  • 干得好。在 OpenCV 中,您可以通过根据层次结构查找轮廓来丢弃小斑点。它会给你一个类似的结果..
猜你喜欢
  • 2013-08-28
  • 2017-12-18
  • 2014-06-08
  • 2013-09-29
  • 1970-01-01
  • 1970-01-01
  • 2010-12-01
相关资源
最近更新 更多