【发布时间】:2010-09-28 04:48:59
【问题描述】:
我正在使用 pdftotext 转换西班牙语文本。带有重音符号或波浪号的字符以需要进一步转换的系统方式输出。重音符号和波浪线出现在转换后的文本中的正确位置,但没有字母。该字母几乎总是出现在输出行的末尾。如果没有,我可以手动修复它们。
例如pdf句子
¿Por qué?
变成
¿Por qu´? e
我对 sed、awk 和 grep 有足够的了解,我认为可以通过它们的某种组合来完成 - 而且这需要我很长时间。我打算用它来处理文件夹中的所有pdf文件。
这些句子以西班牙语-英语对出现在不同的行中。我想用分号分隔符将两者连接起来,这是我的闪存卡应用程序(Anki)的导入格式。删除所有非西英句对的内容。
例如,转换这个输出
B:
¿Por qu´? e
Why?
进入
¿Por qué?;Why?
如果有多个重音符号、波浪号或两者的混合,则行尾的字母顺序正确,并且可以用逗号分隔。比如pdf句子
Sí pero vi en la televisión que iba a llover.
变成
S´ pero vi en la televisi´n que iba a llover. ı, o
或 S´ pero vi en la televisi´n que iba a llover。我哦
输出文件格式
句子总是有一个结束标点符号,“!”,“?”或者 ”。”。对于那些不熟悉西班牙语的人来说,元音 (aeiou) 是唯一可能有重音的字母,字母“n”是唯一可能有波浪号的字母,两个特殊字符可以在大写和小写字母上找到.
第一个输出行可能包含 pdf 的级别和标题。级别和标题总是在“A:”的第一次出现之前
我对“关键词汇”这一行或任何后续行中出现的任何内容都不感兴趣。
pdftotext 以 UTF8 编码运行。我的操作系统是 Linux Mint 9,它基于 Ubuntu 10.04
以下是两个示例输出文件。
输出 1
Elementary - Credit Card A:
(B0089)
Me da la cuenta, por favor.
Bring me the check, please.
B:
Se la doy enseguida.
I’ll bring it to you right away.
B:
Perd´n se˜or, pero no aceptamos tarjeta. o n
Sorry sir, but we don’t take cards.
A:
¿No aceptan ninguna tarjeta de cr´dito? e
You don’t take any credit cards?
Key Vocabulary
tarjeta cr´dito e cuenta
Noun Noun Noun
card credit bill
输出 2
Elementary - My computer is not working A: ¡No puede ser!
It can’t be!
(B0079)
B:
¿Qu´ pasa? e
What happened?
A:
Mi computadora no est´ funcionando. a
My computer is not working.
B:
Rein´ ıciala.
Restart it.
Key Vocabulary
funcionar
Verb
to work
【问题讨论】: