【问题标题】:Classifying type samples from image files从图像文件中分类类型样本
【发布时间】:2011-01-16 22:20:43
【问题描述】:

您建议使用哪种方法对图像中的类型进行自动分类?样本可能很大,白色背景上有黑色文本。

这里定义了类别,每个类别都有一些示例(Google 图书链接):http://bit.ly/9Mnu7P 这是 VOX-ATypI 分类系统的扩展版本。

我对此的最初想法是使用来自每个类别的大量单个字符样本来训练系统,但我想知道是否有更好的方法可以消除一次比较一个字母的需要。

【问题讨论】:

  • 用“计算机视觉”标记它可能有用。
  • 已标记。我还想补充一点,我试图避免采用非常昂贵的解决方案,无论它们有多好。不过,这个看起来很有希望:ideeinc.com/products/piximilar
  • 嗯,你可以试试。但一般的解决方案往往是无效或低效的。我相信你需要实现一个特定的方法。例如,他们似乎使用色彩饱和度作为一项功能,这在您的情况下完全没用。

标签: image machine-learning computer-vision classification


【解决方案1】:

首先,您需要提取特征进行分类。字体通常通过线条的粗细、衬线的存在、字符部分的“圆度”来区分。因此,可能的特征是:

  • 固定区域上黑色像素数的分数。
  • 尝试应用数学形态学erosion 几次(和/或使用不同的掩码)并计算这个分数
  • 计算一个字符的平均紧凑度:周长^2 / 面积
  • 应用腐蚀后,计算一个字符的连通分量数
  • 计算伸长率和其他image moments,还有方向

我在这里看到两个选项:要么计算所有字符的平均特征,要么先尝试对字母进行分类,然后根据某些特定字母对字体进行分类(因此,您可以针对不同的字母训练不同的分类器)。很难说哪一个更适合你。

至于具体的学习算法,Random Forest 似乎是一个不错的起点。 OpenCV 库中有一个实现。

【讨论】:

    猜你喜欢
    • 2020-08-26
    • 1970-01-01
    • 1970-01-01
    • 2017-08-12
    • 1970-01-01
    • 2010-09-08
    • 1970-01-01
    • 2019-06-28
    • 1970-01-01
    相关资源
    最近更新 更多