【发布时间】:2023-03-22 05:33:01
【问题描述】:
所以,我对 tesseract 还很陌生,有些人在这个论坛上遇到了类似的问题,但我无法得到令人满意的解决方案,因此我发布了这个问题。
我有来自街头摄影机的照片,我想获得镜头的时间戳。去掉时间戳后,它们看起来像这样:
我通过使用带有 R 的 tesseract 来解决这个问题:
library(tesseract)
library(magick)
eng <- tesseract("eng")
input <- image_read("image from above")
使用基本的 tesseract 我得到:
input %>% tesseract::ocr(,engine = eng)
# [1] "SRE SAA PRO 206197180731 17:33:88\n"
显然,这并没有多大帮助。因此,在阅读了这个问题后,我尝试了这个:
text <- input %>%
image_resize("2000x") %>%
image_convert(type = 'Grayscale') %>%
image_trim(fuzz = 40) %>%
image_write(format = 'png', density = '300x300') %>%
tesseract::ocr()
cat(text)
# es bt i deen | ee) eee i ae 2s ee ee ee eee ec ee |
这个结果更糟糕,真是令人沮丧。 如何获得正确的结果?热烈欢迎任何帮助:)
编辑
@Max Teflon 回答了这个例子的问题。但是,我意识到有些图像仍然被错误读取,例如
谁能进一步改进他的解决方案?
【问题讨论】:
标签: r tesseract image-recognition