介绍

须知词典拥有大约 290 万个单词的庞大词汇量(截至 2022 年 10 月)。此外,还存储了对搜索有用的信息,例如多个分割单元、拼写变化的统一以及与同义词词典的链接。

在这篇文章中,我想通过具体的例子,分几个部分介绍Sudachi词典的内容和维护政策等。
在第 1 部分中,我将概述这三种类型的字典。

3本词典

Sudachi 提供三种类型的词典:小型、核心和完整。
让我们从(1)注册单位、(2)使用频率、(3)词性的角度来看看每个词典的特点。

(一)登记单位

首先,让我们看一下每个词典的注册词长度的差异。

<表1>
Sudachi辞書の紹介 Part 1
如<表1>所示,小字典为一个字,核心词典是带词缀的单字, 完整的字典是单词、贴词、复合词作为一项基本政策。
例示的“电力/汽车/车辆”、“生物学/多样性/性别”和“工作/类型/就业”仅在小词典中注册为单个词,除了核心词典中的单个词,“汽车” /vehicle ”、“Variety/Sex”和“Job/Type”这些带有词缀的单个词也被注册为一个组。在全字典中,除了这些单个词和词缀之外,整个字典被注册为一个块。
注册内容为“小词典⊂核心词典⊂全词典”,因此注册单词的数量会逐渐增加。
在本文中,注册词的数量是指 Sudachi 词典中的条目数。

小词典中的一个词是UniDic 2.1.2注册为依据。
完整词典中的复合词是NEologd 2017-11-06注册为依据。
UniDic 注册在“国立日本语研究所规定的统一语言单位(短单位)”(*1)的标题下。在 NEologd 中,“从 Web 上的许多语言资源中获得的新词”(*2),尤其是命名实体,被注册为标题。
Sudachi词典将这些语言资源中的单词和复合词结合起来,提取并登记复合词的构成词库,丰富词典的内容。

(*1)https://clrd.ninjal.ac.jp/unidic/about_unidic.html
(*2)https://github.com/neologd/mecab-ipadic-neologd/blob/master/README.ja.md

(2) 使用频率

接下来,我们从单词使用频率的角度来看。

一般来说,单个词的使用频率往往高于复合词,因为单个词构成了复合词的基础。
但是,从单个单词来看,例如“Sokubun”和“Konji”等不经常单独使用且对复合词生成没有贡献的单词,以及“也有诸如”之类的单词呋喃”很少单独使用,主要用作“isshinfuran”的基础。
另一方面,复合词包括日常生活中经常使用的词,例如“冰箱”、“信用卡”和“健康保险卡”,以及众所周知的专有名称,例如“太平洋”。 “美国”和“东京大学”。我有。

如果只按登记单位严格分类,小字典不方便使用,因为不能将常用的复合词作为一个组来识别,而全字典又太大了。
因此,Sudachi 将核心词典定位为默认词典,为了适度丰富它,我们将在核心词典中注册常用复合词的策略进行维护。
到目前为止,注册目的地已从完整词典更改为核心词典的单词如下。

例子)

·国家的名字
"塞尔维亚共和国" "列支敦士登公国" "大韩民国"
・地址地名
“东京”“千代田区”“东京小路町千代田区”
·站名
“半藏门站”“那须盐原站”“六本木一丁目站”“特罗克佐贺站”
・公司名称/组织名称
“大和控股”“河合乐器厂”“近铁百货” “摩天女学院大学”“国际奥委会”
・商务条款等
《风险管理》《入职表》《人事评价体系》 《费用暂缴申请书》《出差旅费结算》《请假证明》 《会计事务所》《工作方式改革》《收入邮票》 《员工持股计划》《企业养老基金》《不正当竞争防治法》
・常识/时事用语
“中性洗涤剂” “折扣票” “网站” “疫苗接种” “住宿费” “出生日期” “交通事故” 《住民基本台帐》《印章登记证》《硕士论文》 《账号》《少子老龄化》《精神营销》

当你将这些常用的复合词移到核心词典中时,只在全词典中注册的词最终会变成高度专业化的术语、杂项专有名称(产品名称、作品名称、服务名称等)、商店名称、事件名称等)。

小词典“单词”,核心词典“单词/带词缀”,完整词典“单词/带词缀/复合词”。核心词典。

(3) 词类

接下来,让我们看一下注册词的词性。
<表2>显示了每个词典中按词性划分的注册词数,<图表1>显示了比率。
另外,这里按照学校语法分为以下词类。

名词、专有名词、代词、词缀、动词、形容词、形容词、副词、形容词、感叹词、连词、助词/助动词、其他(符号等)

<表2>

小词典总数 添加核心词典 核心词典总数 添加完整词典 完整词典总数
名词 170121 62594 232715 20197 252912
专有名词 110489 791056 901545 1268363 2169908
代词 431 2 433 0 433
词缀 2298 68 2366 2 2368
动词 432513 435 432948 256 433204
形容词 33260 75 33335 1 33336
形容词 3928 127 4055 3 4058
副词 7470 12 7482 3 7485
名词性的 135 3 138 0 138
1350 14 1364 8 1372
连词 105 2 107 0 107
助词/助动词 1561 2 1563 2 1565
其他 1976年 14 1990 4908 6898

<图表1>
Sudachi辞書の紹介 Part 1

每个词典的特点包括:

  • 由于小词典包含从 UniDic 派生的单个单词,因此注册了构成形态分析基础的所有词性。
  • 核心和全词典主要是复合词添加,但复合词绝大多数是名词,所以核心和全词典的大部分添加是名词和专有名词。尤其是专有名词,全词典的添加量占总数的50%以上。
  • 由于UniDic收录了复合动词(“love each other”、“pull out”等)和复合形容词(“dark”、“powerful”等),所以基本都收录在小词典中。虽然比例很小,但我们在核心词典中添加了缺失的复合动词(如“use”)和复合形容词(如“troublesome”)。
  • 核心词典新增形容词比例比较大的原因是形容词变成复合词后才变成形容词,如“low/level”、“large/popular”、“high/密度”,被组合在一起。这是因为除了添加片假名外来词的原始拼写之外,例如“奢侈”和“辣”。
  • 之所以在添加全词典中“其他”的比例很大,是因为添加了很多表情符号和象形图。

在这里,我对学校语法的词性进行了概述,但是在Sudachi词典中,UniDic 词性系统, 并使用了更详细的词性。我将在下一篇文章中介绍这一点。

到目前为止,在第 1 部分中,我们已经查看了三个词典中的注册词。
注册词的数量从小、核心、完整的顺序依次增加,与小词典相比,核心词典和完整词典增加了很多名词和专有名词,包含更多的复合词。
顺便说一句,Sudachi 有多种拆分模式,可以将复合词拆分成更短的单元。我想在另一部分中介绍这一点。


原创声明:本文系作者授权爱码网发表,未经许可,不得转载;

原文地址:https://www.likecs.com/show-308631852.html

相关文章: