【问题标题】:Highlight text passage in non searchable PDF在不可搜索的 PDF 中突出显示文本段落
【发布时间】:2018-07-12 21:18:33
【问题描述】:
我需要您的意见,以便找到在扫描图像 pdf 中查找文本段落并突出显示它的通用方法。
当使用谷歌云中的 OCR 功能时,我只是得到图像中所有单词的数组,包括位置。所以我可以找到一个单词并突出显示它,因为我可以搜索该单词并找到它的位置。
但是我怎样才能搜索文本段落呢?
我很乐意从你那里得到一些想法:)
谢谢!
【问题讨论】:
标签:
python
google-cloud-platform
ocr
【解决方案1】:
我猜你的 OCR 是指 Optical character recognition。
我可以想到这个牵强附会的解决方案(假设您将位置作为坐标 x 和 y):
-创建一个包含所有单词的有序列表。顺序应该是这样的*:word1>word2 如果 x1>x2 AND y1=y2(水平排序)或如果 x1=x2 AND y1>y2(行排序)。
-查找段落的第一个单词,检查列表中的下一个条目是否匹配,依此类推。一种更简单的方法是找到第一个和最后一个词,突出显示它们之间的每个词,但如果这些词很常见,它可能会产生重叠。
只要文本不是非常倾斜,这应该可以工作。如果是,则应计算倾斜度并进行校正。
*编辑:如果你先对行排序,然后对单词排序,可能会更容易。之后加入列表。