【发布时间】:2021-01-28 12:27:06
【问题描述】:
我有两张类似的样票,一张是横向的,另一张是纵向的。
第一张图片的结果是
BOOKING ID : BBT3001402
HI ! YOUR BOOKING AT MATHURA EXECUTIVE IS CONFIRMED!
CHECK IN
31
JANUARY
FRIDAY
NIGHTS
4N
CHECK OUT
4
FEBRUARY
TUESDAY
BOOKING DETAILS:
第二张图片结果
BOOKING ID : BBT2601540
HI ! YOUR BOOKING AT VIVANTA BENGALURU, RESIDENCY ROAD IS CONFIRMED!
CHECK IN NIGHTS CHECK OUT
27 7N 03
JANUARY FEBRUARY
WEDNESDAY WEDNESDAY
BOOKING DETAILS:
我希望 PDFbox 以任何一种固定格式(水平/垂直)读取数据。
【问题讨论】:
-
尝试设置排序选项,如果您确实使用了 PDFBox,您的问题并不能说明您使用的是 PDFBox 还是 tesseract 或两者兼而有之。
-
确实,这可以通过激活排序来解决。不幸的是,这里只附上了位图图像,而不是原始 PDF,所以我们只能假设......
-
如果 pdf 格式是预先确定的,那么我会相应地将其剪掉,并为每个文件使用特定的 psm 来查找文本。