【发布时间】:2018-08-29 09:45:25
【问题描述】:
我有一个项目使用 Google Vision API DOCUMENT_TEXT_DETECTION 从文档图像中提取文本。
API 在识别单个数字时通常会遇到问题,如下图所示:
我想这个问题可能与一些去除噪声的算法有关,它将孤立的单个数字识别为噪声。有没有办法在这些情况下改善视力反应? (例如管理噪声阈值或其他参数)
在其他时候,Vision 会将数字与字母混淆:
但如果我指定参数 languageHints = 'en' 或 'mt' 这些数字会被 ocr 忽略。有没有办法强制识别数字或拉丁字符?
【问题讨论】:
-
我不知道确切的原因,但似乎块大小也有问题——它们太大了——所以有些数字可能会被遗漏/误解。寻找控制段大小的选项(如果有)
-
您可以尝试使用
TEXT_DETECTION。如documentation 中所述,DOCUMENT_TEXT_DETECTION针对密集文本进行了优化。您使用的图像似乎并非如此。 -
感谢@enlelin 不幸的是,我需要从书面文档中提取文本,这些文档通常具有不同文本密度的区域。就我而言,DOCUMENT_TEXT_DETECTION 的效果要好得多,但在识别孤立字符时遇到了麻烦。
-
您找到解决此问题的方法了吗?
-
我也遇到了这个问题。任何人已经解决了这个问题?谢谢
标签: google-cloud-platform ocr google-cloud-vision text-recognition