【发布时间】:2015-08-04 07:09:41
【问题描述】:
我有一个标签文件形式的反编译的stardict字典
κακός <tab> bad
<tab> 表示表格。
不幸的是,单词的定义方式要求查询包含所有变音符号。因此,如果我想搜索 ζῷον,我需要将所有的 iotas 和抑扬符都正确。
因此,我想转换整个文件,以便删除关键字的变音符号。所以这条线会变成
κακος <tab> <h3>κακός</h3> <br/> bad
我知道我可以在 bash 中逐行读取文件,如此处所述 [1]
while read line
do
command
done <file
但是有什么办法可以自动化转换线路的操作呢?我听说过iconv [2],但没有设法使用它实现所需的转换。我最好使用 bash 脚本。
此外,是否有一种自动音译希腊语的方式,例如使用珀尔修斯的方法?
/edit: 也许我们可以使用 Unicode 代码?我们可以注意到U+1F0x、U+1F8x for x < 8 等都是字母 α 的变体。这将减少手工工作量。我也接受 C++ 解决方案。
[1]http://en.kioskea.net/faq/1757-how-to-read-a-file-line-by-line
[2]How to remove all of the diacritics from a file?
【问题讨论】:
-
珀尔修斯是谁?我的意思是,我知道他是谁,但他是否足够半神,可以将某种方法归功于他?
-
我不确定您所说的“没有使用它”是什么意思。您是说您无法让
iconv进行所需的转换,还是您的意思是由于某种原因,您没有安装iconv(并且无法安装)? (请使用此信息更新您的问题,而不是在此处回复,我将删除此信息)。祝你好运。 -
关于希腊语的音译:该图像旨在帮助用户在该网站上使用相似的字形输入希腊语,而不是总是相似的声音。那些是糟糕的音译。例如β 最常被音译为 v。ψ 是 ps。 φ 是 ph 值等。
标签: bash diacritics transliteration