一些研究成果介绍
1、Punctuation Prediction for Unsegmented Transcript Based on Word Vector
这篇为每一个词打标签,这个标签代表这个词后的标点符号类型。如下图所示,输入用5个词来预测5个词中间那个词的标点符号类型,使用了GloVe词向量进行词嵌入。

深入了解中文标点预测算法(二)

作者运用了两个CNN模型分别是CNN-1和CNN-2。一个是一维卷积,一个二维卷积。
深入了解中文标点预测算法(二)
2、Distilling Knowledge from an Ensemble of Models for Punctuation Prediction
这篇用DNN,T-BRNN,BLSTM+CRF 的集成作为Teacher model,普通的DNN作为Student model 来进行知识蒸馏。模型结构如下:
深入了解中文标点预测算法(二)
3、Self-Attention Based Network for Punctuation Restoration

这篇使用了生成式的方法,基于Transformer进行预测。结构与Transformer非常相似,仅在decoder输出层部分有改动。decoder的时候 先判断Label softmax的结果。如果Label softmax的结果是’O’,则将输入的词复制到输出序列。如果不是’O’,就将当前预测出的label填入输出序列。
深入了解中文标点预测算法(二)
在IWSLT的ref测试集上结果如下,asr测试集结果作者没有给出。作者在 AI challenger 数据集上尝试了多标点预测,有兴趣的可以看论文。
深入了解中文标点预测算法(二)

参考链接:https://www.zhihu.com/question/263726115/answer/455680235

相关文章:

  • 2022-12-23
  • 2023-03-16
  • 2023-03-06
  • 2021-04-29
  • 2023-02-01
  • 2021-12-23
  • 2021-09-17
猜你喜欢
  • 2022-01-11
  • 2021-08-05
  • 2021-11-07
  • 2021-04-10
  • 2021-07-17
  • 2021-10-17
  • 2021-11-10
相关资源
相似解决方案