One-hot编码
1、什么是one-hot 编码?
one-hot编码又称为一位有效编码,采用N位状态寄存器进行编码,在任意时候只有一位有效。
2、one-hot编码过程
比如:对[“中国”, “美国”, “日本”]进行one-hot编码
1.确定要编码的对象–[“中国”, “美国”, “日本”, “美国”],
2.确定分类变量–中国 美国 日本,共3种类别;
3.以上问题就相当于,有3个样本,每个样本有3个特征,将其转化为二进制向量表示,
我们首先进行特征的整数编码:中国–0,美国–1,日本–2,并将特征按照从小到大排列
得到one-hot编码如下:
[“中国”, “美国”, “日本”, “美国”] —> [[1,0,0], [0,1,0], [0,0,1], [0,1,0]]
3、缺陷
编码要求每个类别之间相互独立,如果存在连续型关系,使用distributied represention(分布式)比较合理。