如何在 Python 中将所有日文平假名转换为片假名字符？答案

【问题标题】：How can I convert all Japanese hiragana to katakana characters in Python?如何在 Python 中将所有日文平假名转换为片假名字符？
【发布时间】：2011-06-20 02:43:37
【问题描述】：

从平假名和片假名图表来看，看起来应该可以将日文文本“规范化”为平假名或片假名。构建表并实现用于搜索/替换的字典/正则表达式表非常简单。有谁知道这项工作已经在哪里完成了吗？

【问题讨论】：

标签： python unicode normalization unicode-normalization

【解决方案1】：

你为什么要这样做呢？片假名传统上用于从其他语言借来的单词，而平假名用于日语母语。通过将日文文本规范化为一种或另一种形式，您实际上可能会妨碍阅读它（至少对我来说这会更难，因为我通过规范化失去了上下文）。

但在回答您的问题时，这似乎符合您的要求： JCONV

【讨论】：

规范化假名有很多用途；首先想到的是实现全文搜索。然后还有各种语言应用。
可以使用一些 python3 兼容的

【解决方案2】：

您可以使用 str.translate 快速完成您想做的事情。

但是，您为什么要这样做并不明显。

我所说的用基于拉丁字母的语言编写的规范化包括小写、规范化空格和去除重音符号等，以便结果是 ASCII。这样做的目的不是为了显示，而是为了在某种模糊搜索/匹配/查找场景中比较用户输入的文本。重点是口音等错误也很常见，即使是相关语言的母语作家也是如此。

鉴于平假名在日语书写系统中所起的作用（单词通常有汉字词干和平假名后缀）我无法想象将平假名字符更改为片假名有什么用......请赐教。

【讨论】：

是的，但是汉字可以很容易地转换为平假名（如果它是日本本土单词）或片假名（如果是借来的）单词。我猜根据发帖者的其他问题，这是用于对输入的文本进行一些处理，在这种情况下，规范化可能是有意义的，如果只是为了对输入的文本进行一组处理。
@diverscuba: "其他问题" == 一个关于线程和subprocess ??
&diverscuba23.谢谢。我正在尝试恢复脚本的不同角色。日语的 OCR 技术不如欧洲语言的 OCR 准确。我们开发了将欧洲精度提高到 +99.5% 的技术。我们“只”将日语从 85% 提高到 97%。原始的日语 OCR 输出混合了在相同单词中“看起来”相似的平假名和片假名字符。我们的校正技术错过了这些。我想 a) 在我们更正之前将所有文本标准化为一个脚本，或者 b) 修复混合字符。不管怎样，我需要一个皈依者。我会试试这些。谢谢