【发布时间】:2020-05-16 06:46:55
【问题描述】:
我正在使用以下代码在图像文本上绘制矩形以匹配日期模式并使其正常工作。
import re
import cv2
import pytesseract
from PIL import Image
from pytesseract import Output
img = cv2.imread('invoice-sample.jpg')
d = pytesseract.image_to_data(img, output_type=Output.DICT)
keys = list(d.keys())
date_pattern = '^(0[1-9]|[12][0-9]|3[01])/(0[1-9]|1[012])/(19|20)\d\d$'
n_boxes = len(d['text'])
for i in range(n_boxes):
if int(d['conf'][i]) > 60:
if re.match(date_pattern, d['text'][i]):
(x, y, w, h) = (d['left'][i], d['top'][i], d['width'][i], d['height'][i])
img = cv2.rectangle(img, (x, y), (x + w, y + h), (0, 255, 0), 2)
cv2.imshow('img', img)
cv2.waitKey(0)
img.save("sample.pdf")
现在,最后我得到了一个带有匹配日期模式的矩形的 PDF。
我想将此程序扫描的 PDF 作为输入而不是上面的图像。 它应该首先将 PDF 转换为 opencv 可读的图像格式,以进行与上述相同的处理。 请帮忙。 (任何解决方法都可以。我需要一个解决方案,我可以将 PDF 转换为图像并直接使用它,而不是保存在磁盘上并从那里再次读取它们。因为我有很多 PDF 需要处理。)
【问题讨论】:
标签: python python-imaging-library tesseract python-tesseract