【问题标题】:What encoding I should choose for transcriptions?我应该为转录选择什么编码?
【发布时间】:2012-01-19 20:32:31
【问题描述】:

我和我的朋友正在为 iphone 和 android 开发一个应用程序。我们需要处理单词转录。我们应该选择什么编码(甚至是特殊字体)来在我们的应用程序中显示正确的单词转录?

更新(2011 年 12 月 14 日):我想提供更多信息。我尝试从 Muller 字典 (http://sourceforge.net/projects/xdxf/files/dicts-XDXF/sdict05/comn_sdict_axm05_mueller24.tar.bz2/download) 中阅读一些转录,但遇到了一些字符问题。 我用enca检查字典文件编码

~/mueller24 % enca dict.xdxf                                                           
Universal transformation format 8 bits; UTF-8

一个有问题的词是“画家”。当我在 emacs 中打开字典文件时,我看到:

有了数据,我们的脚本用 ruby​​ 编写。它从字典中解析这个转录并存储在数据库中。之后,它从数据库中获取这个转录并将其作为 json 写入文件(utf-8)。如果我在文本编辑器中打开这个文件,我会看到它是这个字符串\u0445peInt\u255a

如果我在我的应用程序中解析它并在屏幕上显示它看起来像这样:

错在哪里?我想在解析字典文件时有这个问题。比如何正确解析?

【问题讨论】:

  • 单词转录与其他文本有何不同?
  • 请看我的详细更新。谢谢

标签: android iphone ruby fonts transcription


【解决方案1】:

UTF-8(紧凑且向后兼容)

【讨论】:

  • 该文件是明确的 UTF-8(在 XML 标头中)。从您的屏幕截图中,画家的数据看起来不对,我希望它与绘画相匹配(ˈpeɪntə)。我认为你那里有一个组合变音符号。
  • 是的,你是对的。我们尝试在 StarDict 应用程序中打开这个文件,并且这个词的转录在那里很好。比我只是用 json 将转录字符串从那里复制到我的文件中,在 iphone 应用程序中解析它并正确显示。我将更深入地研究我们在 ruby​​ 中的解析脚本。感谢您的回复!
  • 如果这是我的项目,我会修复数据而不是解析。我对 IPA 生疏了,但看起来画家的前 3 个“字符”是错误的。 (我想你可以编写代码来检查错误数据,如果另一个程序只返回 ˈpeɪntə 那么它一定是这样做的。)那是几年前的事了,但我记得在商业词典中遇到过一两个错误条目(这是也以 XML 形式提供)。
  • 我们已经用 StarDict programm (dictionary programm) 检查了词典文件,它显示我们的“坏”词很好。这就是为什么我认为我们的解析脚本中存在这个问题。
  • 我刚刚尝试下载 StarDict。不再在 Mac OS X 上运行(只是方框字符)。我不知道如何在 Windows 上加载字典。考虑到用户界面有多糟糕,我不太相信它。数据在我看来很糟糕,在真正的 IPA 发音之前有多余的字符。在我怀疑您的解析之前,我怀疑 StarDict 如何显示 Unicode 组合标记存在错误。
猜你喜欢
  • 1970-01-01
  • 2014-09-18
  • 1970-01-01
  • 2020-10-05
  • 1970-01-01
  • 2011-09-16
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多