人类语言处理(注重speech任务)== 自然语言处理(偏重Text任务)
处理的对象:Text和Speech(语音)

Speech processing is not only speech recognition。

audio:
1 second has 16k sample points, and each point has 256 possible values.
所以没有人可以说同一段话两次

本课程聚焦近3年的发展,探讨在“硬train一发”(把数据集丢进深度学习网络训练就能解决问题)之后的进展。

nlp task

6 kinds
李宏毅2020人类语言处理—P1

  • ASR,automatic speech recognition,使用的seq2seq(end-to-end)不同于机器翻译的seq2seq模型。语音辨识
  • Text-to-Speech Synthesis 语音合成
  • speech separation,一个场景下多个人说话,机器如何分辨不同人的语音。
  • voice conversion,变声器,A的声音转出B的声音.

unsupervised voice conversion,and only one utterance from each speaker(one-shot learning)

  • 1.speaker recognition,听声音辨别说话者 2.Keyword spotting,检测关键句(唤醒词:Hey Siri)
  • Text generation,used RNN,bert… its task include:Translation,Summarization,Chat-bot,Question Answer(this class focus)
    李宏毅2020人类语言处理—P1

其他领域和技术

  • Meta learning
    李宏毅2020人类语言处理—P1
  • Learning from Unpaired Data,转换
  • Knowledge Graph,将学到的知识再放入模型里面
  • Adversarial Attack,检测是否为合成语音

相关文章: