【发布时间】:2022-01-22 22:54:02
【问题描述】:
我想从漫画中检测文本,我尝试使用 pytesseract 但它没有检测到所有文本。您是否知道任何解决方案可以提高对这些类型图像的 pytesseract 检测质量?
示例不检测文本: https://i.stack.imgur.com/z8blK.jpg
“感觉!”未检测到。
目前我只是在没有特定设置的情况下进行检测:
import pytesseract
pytesseract.image_to_string(img, lang="fra")
【问题讨论】:
-
您可以通过将图像裁剪到其(相关)子部分,然后单独传递该子部分来改进结果。 IE。首先使用一种算法来确定图像的文本部分。然后裁剪文本部分(尽可能小),然后传递那些裁剪的图像。
-
但是如果存在检测不准确的问题,您可以尝试其他一些OCR Api(提供更高的文本检测精度)。 This 站点是最好的文本提取站点之一,因此您可以使用他们提供的 api。
标签: image text ocr tesseract python-tesseract