【发布时间】:2011-07-05 12:41:06
【问题描述】:
我想在现有 PDF 文件中插入不可见文本,使其可搜索。
我应该使用什么库?
我希望能提供指向特定 API 方法的链接。
免费,最好是开源的。
非常感谢!
(对于好奇的:我想在 Alfresco 存储库中自动 OCR 传入扫描的论文并使其可搜索)
【问题讨论】:
-
@AndrewMorton “这能回答你的问题吗?” - 这不太可能。毕竟这里的问题是关于常规文本,它应该是不可见的,而不是元数据。此外,这个问题已有近 9 年的历史,并以一个公认的答案结束。机会是操作同时不再处理该问题......
-
@mkl OP 可能不知道当时可以将元数据添加到 PDF 文档中,并且它将是 indexed by Alfresco。这个问题现在被认为是题外话,因为它要求一个图书馆,但我认为副本会更有用。
-
仍然是一个有用的问题,但现在建议有自己的网站,所以我只是在那里发布了同样的问题:softwarerecs.stackexchange.com/questions/71464/…
-
@AndrewMorton 没有。这种作为重复的关闭是不正确的。 OCR 文本的数量使得 pdf 元数据的放置位置完全错误。