一,NLP问题的提出
语言是思维的载体,是人类交流思想、表达情感最自然、最直接、最方便的工具。
人类历史上以语言文字形式记载和流传的知识占知识总量的80%上。
全世界正在使用的语言有1900多种。
所以,如何让计算机自动地理解人类的语言是极其重要的。
二,基本概念
- HLT:人类语言技术
- NLU:自然语言理解
- CL:自然语言学
- NLP:自然语言处理
它们之间的关系如下:
三,研究内容
- 机器翻译
- 信息检索
- 自动文摘
- 问答系统
- 信息过滤
- 信息抽取
- 知识图谱
- 文档分类
- 情感分类
- 文字编辑与自动校对
- 语言教学
- 文字识别
- 语音识别
- 文语转换/语音合成
- 说话人识别/认同/验证
四,基本问题和主要困难
1,基本问题
- 形态学问题
- 句法问题
- 语义问题
- 语用学问题
- 语音学问题
2,主要困难
- 词法歧义
- 词性歧义
- 结构歧义
- 语义歧义
- 语音歧义
- 多音字及韵律等歧义
- 未知语言现象:新词、新含义、新用法、新句型等等
3,所面临的挑战
- 普遍存在的不确定性:词法、句法、语义、语用和语音各个层面
- 未知语言现象的不可预测性:新的词汇、新的术语、新的语义和语法无处不在
- 始终面临的数据不充分性:有限的语言集合永远无法涵盖开放的语言现象
- 语言知识表达的复杂性:语义知识的模糊性和错综复杂的关联性难以用常规方法有效地描述,为语义计算带来了极大的困难
- 机器翻译中映射单元的不对等性:词法表达不相同、句法结构不一致、语义概念不对等
五,基本研究方法
1,理性主义
思路:基于规则的分析方法建立符号处理系统。
- 规则库开发
- 词典标注
-
推导算法设计
2,经验主义
- 大规模真实数据的收集与标注
- 建立统计模型