【发布时间】:2014-12-22 20:33:00
【问题描述】:
我正在处理一个需要我从 pdf 中提取文本的问题。我正在使用 pdfbox 来做到这一点。所以,我在终端(linux ubuntu)中运行这个命令:
java -jar pdfbox-app-1.8.7.jar ExtractText [path leading to file here]
一切正常。但是,我想对特定目录中的数千个文件递归地执行此操作,因此我不必每次都手动插入 pdf 路径。我将不胜感激任何来自终端或脚本的解决方案。
【问题讨论】:
-
两个字:
man find)) -
for i in *.pdf; do java .... ExtractText $i; done,基本上
标签: python ubuntu recursion terminal pdfbox