在玩tesseract时,发现如下报错:

解决:actual_tessdata_num_entries_

这个是因为Tesseract-OCR的版本和chi_sim.traindata字库版本不匹配,由于我的Tesseract-OCR是3.02.02,去google下载字库要翻墙,CSDN要积分,在百度快要无望的情况下,发现了该网站http://www.xue51.com/soft/1594.html#xzdz,才得以解决字库的问题

然后把字库中的chi_sim.traineddata拷贝到Tesseract-OCR\tessdata目录下

解决:actual_tessdata_num_entries_

在文件的保存位置打开cmd,运行tesseract test.jpg test -l chi_sim命令,就可以在当前位置生成一个叫test的文件

命令格式: tesseract imagename outputbase [-l lang] [-psm pagesegmode] [configfile…] 

imagename为目标图片文件名,需加格式后缀;outputbase是转换结果文件名;lang是语言名称(在Tesseract-OCR中tessdata文件夹可看到以eng开头的语言文件eng.traineddata),如不标-l eng则默认为eng

解决:actual_tessdata_num_entries_

解决:actual_tessdata_num_entries_

后期有望通过训练来提高识别率

 

 

 

参考文章

https://www.cnblogs.com/congyinew/p/7694204.html

 

相关文章:

  • 2021-07-24
  • 2021-07-22
  • 2021-05-18
  • 2021-12-24
  • 2021-04-13
  • 2021-05-10
  • 2021-07-10
  • 2021-09-01
猜你喜欢
  • 2022-12-23
  • 2021-11-18
  • 2022-02-26
  • 2021-11-29
  • 2021-05-25
  • 2021-08-03
  • 2021-06-28
相关资源
相似解决方案