【发布时间】:2018-04-24 23:45:01
【问题描述】:
我正在尝试使用 tesseract 创建收据 OCR 应用程序。在识别过程之后,我想确定收据属于哪个类别,例如食品和饮料、交通、电话账单等。我目前的做法是:
- 在一些常见商店旁边创建一个类别字典。
- 识别后,我将使用近似字符串匹配尝试在字典中查找商店名称,如果存在,我会将收据分配到该类别。
- 如果没有找到,我会将收据分配到默认类别,并等待用户从列表中选择一个。然后我会将这对保存在字典中以备将来使用。
问题在于,除了存储到类别对的限制之外,如果我尝试对字典的每一行使用近似字符串识别,它会非常慢。有什么办法可以改进这个过程吗?
【问题讨论】:
标签: android dictionary tesseract