本篇论文第一作者来自东南大学的单伟伟老师,第二作者是ISSCC19年的1μW VAD的作者。
该论文是面向低功耗关键词检测(Keyword Spotting)的电路设计
论文中主要讲述四个创新点:
-
在特征提取模块采用串行的FFT结构,降低功耗和面积
-
在分类模块采用DSCNN网络结构,网络中权重和**值是全二值化的
-
分类模块采用语音帧内复用计算,每次需要计算一帧更新的数据
-
电路层次采用低电压、低频率(0.41v,40khz),定制化的NTV Memory
整体结构如下图所示:
算法、结构、电路
MFCC特征提取模块的分精度定点化策略,如下图所示:
整个关键词系统采用分帧流水的处理策略,每帧语音长度16ms,故系统64ms的延时,如下图所示:
分帧流水的策略
DSCNN网络的具体结构如下图所示:
DSCNN网络
判断:第一层cnn的频率维度stride应该为2;DSCNN层的stride为1;pooling层的频率维度stride为2。
NN模块的帧复用策略如下图所示,故每次只需计算新更新的一帧数据计算。
帧复用流程图
结论如下图所示,在tmsc 28nm工艺下,电压0.41v,40khz,整体功耗为:510 nW 。
结果图
思考:
论文中给出:
一帧的语音数据长度为16ms,包括10个特征MFFC值,由于NN模块中采用了帧复用技术,也就是NN模块每次只需计算一帧新的数据。而本文中电路的频率为40khz,也就是说:需要在640个cycle处理完这10个特征值。
NN模块是采用DSCNN的网络结构(1CNN+1DSCNN+1POOLING+1FC),文中给出的运算量为:202400 个8-bit MACs,和48096 个1-bit MACs,估计NN 模块的算力大概为:15M MACs/s。
欢迎关注公众号“芯设计”