前言 刚看到这个问题的时候有点蒙圈,三个Embedding是哪三个Embedding? 看来bert理解的还是不够,迅速查了下资料。bert中的三个Embedding包括Position Embedding、Token Embedding、Segment Embedding。 为何可以相加,可以从矩阵运算的数学层面解释。大矩阵的乘法等于将矩阵切分成小的矩阵分别进行乘法,然后结果相加。 下面的图片便于理解。 参考 为什么Bert的三个Embedding可以进行相加? 相关文章: 2021-04-19 2021-07-29 2021-12-22 2022-12-23 2021-11-28 2021-09-23 2021-08-03 2021-04-02