【发布时间】:2017-07-25 21:00:27
【问题描述】:
任务是获取文档的图像,并利用围绕不同“部分”的直线将图像拆分为不同的文档以进行进一步解析。不同“部分”的大小因页面而异(我们正在处理数千页)。以下是其中一张图片的样子:
文档布局示例:
图像分析/处理对我来说是全新的。到目前为止,我已经尝试使用 Scikit 图像边缘检测算法来找到“框”,并希望使用这些“坐标”来切割图像。但是,我尝试过的两种算法(Canny,Hough)在高灵敏度时将文本行作为“边缘”,而不是在低灵敏度时提取我想要的行。我可以编写一些自定义和低级别的东西来自己检测这些盒子,但我必须假设这是一个已解决的问题。
我的方法是否朝着正确的方向发展?谢谢!
【问题讨论】:
-
你也有一些真实的输入图像吗?您展示的内容有助于说明这个概念。但您确实需要使用真实世界的输入。
-
添加了一个真实的输入图像,尽管要解析的文档来自各种不同的来源。格式整体格式预计总是相似的,但行大小、语言、文本格式等容易发生变化。
-
这似乎是计算机生成的图像,而不是由扫描仪或相机获取的图像。 (根据所有线条的完美水平/垂直程度来判断)所有输入都是这样的吗?如果是这样,那肯定会让任务变得更容易。
-
假设是这样。我相信该图像是 pdftoppm 程序的输出,以防万一。
-
我们正在尝试检测被黑线包围的“文章”,而不是被白色间隙包围的不同列。文章分为最多 4 个垂直列和最多 4 行,尽管有时文章很大并且覆盖整个页面或半页,如您在此处看到的那样。
标签: opencv image-processing edge-detection scikit-image canny-operator