【发布时间】:2019-07-08 11:50:30
【问题描述】:
我有以下 ubuntu 脚本,它检查我的 pdf 是否已被 OCRed,如果没有,则对它们进行 OCR。问题是,我有一些混合了 OCR 和非 OCR 的 pdf。因此,我想在 if 语句中添加一个条件,说明行数或单词数是否小于某个数字(例如 100 行文本或 1000 个单词),以对其进行 OCR。我对 ubuntu 完全陌生,我已经添加了几行(粗体)。
MYFONTS=$(pdffonts -l 5 "$1" | tail -n +3 | cut -d' ' -f1 | sort | uniq)
**LINECOUNT=$(wc -l)**
if [ "$MYFONTS" = '' ] || [ "$MYFONTS" = '[none]' ] **|| [ "$LINECOUNT" < '100' ]**; then
echo "Not yet OCR'ed: $1 -------- Processing...."
echo " "
ocrmypdf -l eng -s "$1" "$1"
echo " "
else
echo "Already OCR'ed: $1"
echo " "
fi
脚本是从这里获得的: Batch OCRing PDFs that haven't already been OCR'd
【问题讨论】: