【发布时间】:2013-09-12 11:07:30
【问题描述】:
我之前得到了一些关键字,我想通过 python 搜索 pdf 文档并突出显示它们。像 pdfMiner 这样的库是否可行?
【问题讨论】:
-
如果你在 Mac 上,最好通过 osascript 使用 AppleScript
-
不,在 linux 机器上
标签: python pdf pdf-generation python-module
我之前得到了一些关键字,我想通过 python 搜索 pdf 文档并突出显示它们。像 pdfMiner 这样的库是否可行?
【问题讨论】:
标签: python pdf pdf-generation python-module
是的,您可以使用“PyMuPDF”库。 点安装 PyMuPDF。
然后使用下面的代码,
import fitz
### READ IN PDF
doc = fitz.open(r"D:\XXXX\XXX.pdf")
page = doc[0]
text = "Amey"
text_instances = page.searchFor(text)
### HIGHLIGHT
for inst in text_instances:
print(inst, type(inst))
highlight = page.addHighlightAnnot(inst)
### OUTPUT
doc.save(r"D:\XXXX\XXX.pdf", garbage=4, deflate=True, clean=True)
【讨论】: