【问题标题】:How can I convert all Japanese hiragana to katakana characters in Python?如何在 Python 中将所有日文平假名转换为片假名字符?
【发布时间】:2011-06-20 02:43:37
【问题描述】:

从平假名和片假名图表来看,看起来应该可以将日文文本“规范化”为平假名或片假名。构建表并实现用于搜索/替换的字典/正则表达式表非常简单。有谁知道这项工作已经在哪里完成了吗?

【问题讨论】:

    标签: python unicode normalization unicode-normalization


    【解决方案1】:

    你为什么要这样做呢?片假名传统上用于从其他语言借来的单词,而平假名用于日语母语。通过将日文文本规范化为一种或另一种形式,您实际上可能会妨碍阅读它(至少对我来说这会更难,因为我通过规范化失去了上下文)。

    但在回答您的问题时,这似乎符合您的要求: JCONV

    【讨论】:

    • 规范化假名有很多用途;首先想到的是实现全文搜索。然后还有各种语言应用。
    • 可以使用一些 python3 兼容的
    【解决方案2】:

    您可以使用 str.translate 快速完成您想做的事情。

    但是,您为什么要这样做并不明显。

    我所说的用基于拉丁字母的语言编写的规范化包括小写、规范化空格和去除重音符号等,以便结果是 ASCII。这样做的目的不是为了显示,而是为了在某种模糊搜索/匹配/查找场景中比较用户输入的文本。重点是口音等错误也很常见,即使是相关语言的母语作家也是如此。

    鉴于平假名在日语书写系统中所起的作用(单词通常有汉字词干和平假名后缀)我无法想象将平假名字符更改为片假名有什么用......请赐教。

    【讨论】:

    • 是的,但是汉字可以很容易地转换为平假名(如果它是日本本土单词)或片假名(如果是借来的)单词。我猜根据发帖者的其他问题,这是用于对输入的文本进行一些处理,在这种情况下,规范化可能是有意义的,如果只是为了对输入的文本进行一组处理。
    • @diverscuba: "其他问题" == 一个关于线程和subprocess ??
    • &diverscuba23.谢谢。我正在尝试恢复脚本的不同角色。日语的 OCR 技术不如欧洲语言的 OCR 准确。我们开发了将欧洲精度提高到 +99.5% 的技术。我们“只”将日语从 85% 提高到 97%。原始的日语 OCR 输出混合了在相同单词中“看起来”相似的平假名和片假名字符。我们的校正技术错过了这些。我想 a) 在我们更正之前将所有文本标准化为一个脚本,或者 b) 修复混合字符。不管怎样,我需要一个皈依者。我会试试这些。谢谢
    猜你喜欢
    • 2012-06-08
    • 2017-05-26
    • 2018-04-26
    • 2015-04-24
    • 1970-01-01
    • 2021-05-15
    • 1970-01-01
    • 1970-01-01
    • 2021-07-18
    相关资源
    最近更新 更多