【发布时间】:2018-03-30 14:47:40
【问题描述】:
我有数百万张图像,我可以使用 OCR 和 pytesseract 来执行下降文本提取,但是处理所有图像需要很长时间。
因此,我想确定图像是否仅包含文本,如果没有,我就不必对其执行 OCR。理想情况下,这种方法具有很高的召回率。
我正在考虑构建一个 SVM 或一些机器学习模型来帮助检测,但我希望是否有人新的方法可以快速确定对象是否包含文本。
【问题讨论】:
-
能否提供样本数据集?
-
这个问题里面没有python。
-
也可以duplicate
-
这几乎看起来像一个重复的问题,彼得,但它有点不同。
标签: python classification ocr tesseract text-extraction