【发布时间】:2022-01-21 18:12:01
【问题描述】:
我使用 PHP 的 pdftotext 从 pdf 创建了很多 .txt 文件。
像这样使用它,它对所有文件中的所有文本部分都非常有效:
system("pdftotext -raw dir/$pdf_file 2>&1");
问题
但是,在新的 .txt 文件中,pdf 中的所有图像都显示为:
- 在 FTP 中打开文件时出现“FF”
- 浏览器中带有 urlencode 的字符 '%0C' (fopen)
- 不带 urlencode (fopen) 的向上箭头
- ^L,当在命令行上使用 less 时(在 CentOs 7 中),即使是单个文件名上的 sed 's/^L//g' 也不起作用。
因此,在所有这些视图中,我可以通过不同的方式来处理这个奇怪的字符。
问题
在尝试了这么多代码一周后,我仍在寻找一种方法来从所有 .txt 文件中找到并删除这个奇怪的图像字符。
有解决办法吗?
或者,在这里做什么是明智的?使用带有代码或在命令行上的 php 文件?我现在对这个有点迷失了。
【问题讨论】:
-
这不是 PHP 命令;这是一个系统命令,其手册页在这里:linux.die.net/man/1/pdftotext - 声明“不再推荐使用原始模式”。 ...
标签: php shell pdf urlencode pdftotext