【发布时间】:2011-06-20 02:43:37
【问题描述】:
从平假名和片假名图表来看,看起来应该可以将日文文本“规范化”为平假名或片假名。构建表并实现用于搜索/替换的字典/正则表达式表非常简单。有谁知道这项工作已经在哪里完成了吗?
【问题讨论】:
标签: python unicode normalization unicode-normalization
从平假名和片假名图表来看,看起来应该可以将日文文本“规范化”为平假名或片假名。构建表并实现用于搜索/替换的字典/正则表达式表非常简单。有谁知道这项工作已经在哪里完成了吗?
【问题讨论】:
标签: python unicode normalization unicode-normalization
你为什么要这样做呢?片假名传统上用于从其他语言借来的单词,而平假名用于日语母语。通过将日文文本规范化为一种或另一种形式,您实际上可能会妨碍阅读它(至少对我来说这会更难,因为我通过规范化失去了上下文)。
但在回答您的问题时,这似乎符合您的要求: JCONV
【讨论】:
您可以使用 str.translate 快速完成您想做的事情。
但是,您为什么要这样做并不明显。
我所说的用基于拉丁字母的语言编写的规范化包括小写、规范化空格和去除重音符号等,以便结果是 ASCII。这样做的目的不是为了显示,而是为了在某种模糊搜索/匹配/查找场景中比较用户输入的文本。重点是口音等错误也很常见,即使是相关语言的母语作家也是如此。
鉴于平假名在日语书写系统中所起的作用(单词通常有汉字词干和平假名后缀)我无法想象将平假名字符更改为片假名有什么用......请赐教。
【讨论】:
subprocess ??