【nlp面试题】为什么Bert的三个Embedding可以进行相加？

前言

刚看到这个问题的时候有点蒙圈，三个Embedding是哪三个Embedding?
看来bert理解的还是不够，迅速查了下资料。bert中的三个Embedding包括Position Embedding、Token Embedding、Segment Embedding。
为何可以相加，可以从矩阵运算的数学层面解释。大矩阵的乘法等于将矩阵切分成小的矩阵分别进行乘法，然后结果相加。
下面的图片便于理解。
【nlp面试题】为什么Bert的三个Embedding可以进行相加？

参考

为什么Bert的三个Embedding可以进行相加？

2021-04-19
2021-07-29
2021-12-22
2022-12-23
2021-11-28
2021-09-23
2021-08-03
2021-04-02