【问题标题】:Highlight text passage in non searchable PDF在不可搜索的 PDF 中突出显示文本段落
【发布时间】:2018-07-12 21:18:33
【问题描述】:

我需要您的意见,以便找到在扫描图像 pdf 中查找文本段落并突出显示它的通用方法。

当使用谷歌云中的 OCR 功能时,我只是得到图像中所有单词的数组,包括位置。所以我可以找到一个单词并突出显示它,因为我可以搜索该单词并找到它的位置。

但是我怎样才能搜索文本段落呢?

我很乐意从你那里得到一些想法:)

谢谢!

【问题讨论】:

  • 所以换句话说,你使用OCR来create a searchable PDF?如果是这样,“正常”的文本搜索应该可以工作

标签: python google-cloud-platform ocr


【解决方案1】:

我猜你的 OCR 是指 Optical character recognition

我可以想到这个牵强附会的解决方案(假设您将位置作为坐标 x 和 y):

-创建一个包含所有单词的有序列表。顺序应该是这样的*:word1>word2 如果 x1>x2 AND y1=y2(水平排序)或如果 x1=x2 AND y1>y2(行排序)。

-查找段落的第一个单词,检查列表中的下一个条目是否匹配,依此类推。一种更简单的方法是找到第一个和最后一个词,突出显示它们之间的每个词,但如果这些词很常见,它可能会产生重叠。

只要文本不是非常倾斜,这应该可以工作。如果是,则应计算倾斜度并进行校正。

*编辑:如果你先对行排序,然后对单词排序,可能会更容易。之后加入列表。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2013-11-20
    • 2012-06-25
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2020-04-12
    • 1970-01-01
    • 2012-01-03
    相关资源
    最近更新 更多