· 什么是语料和语料库
· 语料库的种类
· 如何获取和处理语料

什么是语料库

· 语料,即语言材料。语料是语言学研究的内容。语料是构成语料库的基本单元;
· 语料库中存放的是在语言的实际使用中真实出现过的语言材料;
· 语料库是以电子计算机为载体承载语言知识的基础资源;
· 真实语料需要经过加工(分析和处理),才能成为有用的资源。

语料库的种类(宏观)

语料的获取与处理

语料的获取途径

· 开放性语料数据集
· 爬虫技术
· 自有平台

开放性语料数据集

语料的获取与处理

语料的处理

(1) 获取语料
(2)格式化文本
(3) 特征工程

相关文章:

  • 2021-12-20
  • 2021-09-25
  • 2022-12-23
  • 2022-12-23
  • 2022-12-23
  • 2021-12-24
  • 2021-10-14
  • 2021-09-10
猜你喜欢
  • 2022-12-23
  • 2022-12-23
  • 2022-12-23
  • 2021-09-26
  • 2022-01-27
  • 2021-11-08
  • 2021-08-18
相关资源
相似解决方案