【发布时间】:2020-03-18 09:14:18
【问题描述】:
我用 Java 编写了一个 OCR 程序,它可以扫描文档并查找其中的所有文本。我的主要任务是找到可以是 6 位或更多整数的发票编号。
我使用了子字符串功能,但效率不高,因为该数字的位置随每个文档而变化,但它始终存在于 OCR 文本的前三行中。
我想用 Java 8 编写代码,从中可以遍历前三行并获得这 6 个连续数字。
我正在使用 Tesseract 进行 OCR。
例子:
,——— ————i_
g DAILYW RK SHE 278464
E C 0 mp] on THE POUJER Hello, Mumbai, Co. Maha
从中,我需要提取数字278464。
请帮忙!!
【问题讨论】:
-
@Lino 6 或更多 所以应该是
(\d{6,}) -
类似这样的 ` String receiptNumber = ""; for (int j = 0; j