Python中用于假名-汉字转换的mozcpy介绍

超…†
跌倒...†
这次来介绍mozcpy，不知道有没有Python中对假名-汉字转换的需求……†

什么是mozcpy

顾名思义，它使用 Mozc 字典通过 MeCab 将假名转换为汉字。但与普通输入法不同的是，它没有缓存转换结果等功能，是一种简单的无状态假名汉字转换。虽然名字中包含了mozc，但作者与谷歌几乎没有任何关系。

安装方法

MeCab

安装 MeCab 二进制文件。网上安装MeCab的方法有很多种，这里就省略了。旨在与 UTF-8 一起使用。

mozcpy

派皮因为它在，只需点击以下命令！

$ pip install mozcpy

如何使用

导入和实例化

import mozcpy

converter = mozcpy.Converter()

尝试假名-汉字转换

converter.convert('まほうしょうじょ')
# => '魔法少女'
converter.convert('まほうしょうじょ', n_best=10)
# => ['魔法少女', '魔法消除', '魔法省所', '魔法小所', '魔法昇叙', '魔砲少女', 'マホウ少女', '魔法証所', '魔法賞所']

n_best 为关键字指定int 时，返回转换候选列表。但是，由于省略了相同的字符串，因此不一定会返回指定的候选数。

在转换假名汉字时尝试在空格中书写

converter.convert_wakati('もうなにもこわくない')
# => 'もう 何 も 怖く ない'
converter.convert_wakati('もうなにもこわくない', n_best=3)
# => ['もう 何 も 怖く ない', 'もう 何 も こわく ない', 'もう 何 も 恐く ない']

您也可以在此处指定n_best。

尝试分享和写假名

converter.wakati("もうなにもこわくない")
# => 'もう なに も こわく ない'
converter.wakati("もうなにもこわくない", n_best=10)
# => ['もう なに も こわく ない']

有没有需求是个谜，但是很容易实现，所以附上。

最后

欢迎投稿！
https://github.com/ikegami-yukino/mozcpy

原创声明：本文系作者授权爱码网发表，未经许可，不得转载;

原文地址：https://www.likecs.com/show-308624085.html