在不可搜索的 PDF 中突出显示文本段落

【问题标题】：Highlight text passage in non searchable PDF在不可搜索的 PDF 中突出显示文本段落
【发布时间】：2018-07-12 21:18:33
【问题描述】：

我需要您的意见，以便找到在扫描图像 pdf 中查找文本段落并突出显示它的通用方法。

当使用谷歌云中的 OCR 功能时，我只是得到图像中所有单词的数组，包括位置。所以我可以找到一个单词并突出显示它，因为我可以搜索该单词并找到它的位置。

但是我怎样才能搜索文本段落呢？

我很乐意从你那里得到一些想法:)

谢谢！

【问题讨论】：

【解决方案1】：

我猜你的 OCR 是指 Optical character recognition。

我可以想到这个牵强附会的解决方案（假设您将位置作为坐标 x 和 y）：

-创建一个包含所有单词的有序列表。顺序应该是这样的*：word1>word2 如果 x1>x2 AND y1=y2（水平排序）或如果 x1=x2 AND y1>y2（行排序）。

-查找段落的第一个单词，检查列表中的下一个条目是否匹配，依此类推。一种更简单的方法是找到第一个和最后一个词，突出显示它们之间的每个词，但如果这些词很常见，它可能会产生重叠。

只要文本不是非常倾斜，这应该可以工作。如果是，则应计算倾斜度并进行校正。

*编辑：如果你先对行排序，然后对单词排序，可能会更容易。之后加入列表。

【讨论】：