【发布时间】:2016-02-02 18:44:43
【问题描述】:
我需要使用单独的工作流元素来捕获这两个值。 (“Soldto:”正下方的第3行值,与“Shipto:”相同。文本在页面上按列排列,因此将其视为简单模式不起作用。请指教。
图像是真实的,因为文本是通过扫描和 OCR'ing TIF 图像生成的,但这里有一些文本是我为了测试而复制的(比页面上的更简洁)
Soldto: Shipto: Billto:
00011222 00017872 10221060
COSTCO CO INC. - GLOBAL EDI COSTCO LANGLEY DEPOT COSTCO CO/LANGLEY
为避免排列这些列所需的所有 HTML 格式,我将示例文本链接为 .txt file.
感谢您的帮助。
【问题讨论】:
-
顺便说一下,界面是Laserfiche Workflow Pattern Matching。使用正则表达式标识 Soldto: 或 Shipto: 在页面上,然后我需要帮助转到第三行并选择大约 35 个字符、空格和标点符号。
-
您能否编辑您的问题并将实际的文本放入其中?
标签: regex string text extract ocr