ERNIE学习笔记 - 爱码网

学习ERNIE的输入部分

输入

一共有五个部分组成，每个部分之间用分号;隔开：

· token_ids：输入句子对的表示；

· sentence_type_ids：0或者1表示token属于哪一个句子；

· position_ids：绝对位置编码

· seg_labels：表示分词边界信息，0表示词首、1表示非词首、-1为占位符

· next_sentence_label：表示该句子对是否存在上下句的关系（0为无1为有）

mask有两种 word level / char level

在15%的基础上：

word level: 替换规则 80% mask 10% 替换 10%不替换

char level: 3% ~ 15% mask 1.5%~3% 随机字，否则不替换

BERT源码分析及实战

Cove，ELMo，GPT 等模型，构建了语句级的语义表示。

ERNIE 模型通过对词、实体等语义单元的掩码，使得模型学习完整概念的语义表示。相较于 BERT 学习原始语言信号，ERNIE 直接对先验语义知识单元进行建模，增强了模型语义表示能力。