推荐阅读:数据制作
paper 地址:https://arxiv.org/abs/1708.07747
数据集下载:https://github.com/zalandoresearch/fashion-mnist
上个月底突然被Fashion-MNIST刷屏,于是乎看看这个数据集是个什么样的数据集。
命名技巧:
Fashion-MNIST其命名很有技巧,“蹭”了MNIST,要不然也火不了。就像JAVAsript 的命名,JAVAsript和JAVA没啥关系,就是“蹭”热度,起个好名字啊!引用知乎 的图片:
项目目的:
制作这个数据集的目的就是取代MNIST,作为机器学习算法良好的“检测器”,用以评估各种机器学习算法。为什么不用MNIST了呢? 因为MNIST就现在的机器学习算法来说,是比较好分的,很多机器学习算法轻轻松松可以达到99%,因此无法区分出各类机器学习算法的优劣。
为了和MNIST兼容,Fashion-MNIST 与MNIST的格式,类别,数据量,train和test的划分,完全一致。
数据源:
paper中提到,数据来源于Zalando’s website . 这是什么鬼? 查了一下才知道,Zalando是德国的电商, 其主要产品是服装和鞋类。再一看作者,是Zalando研究部门的,好吧。可不可以认为是打广告呢!剩下一大笔广告费啊!作者是华人:肖涵。
数据来自不同gender group: men women kids and neutral ;并且,不包含白色的商品,因为白色商品与背景的对比度较低。
类别如下:
| 标注编号 | 描述 |
|---|---|
| 0 | T-shirt/top(T恤) |
| 1 | Trouser(裤子) |
| 2 | Pullover(套衫) |
| 3 | Dress(裙子) |
| 4 | Coat(外套) |
| 5 | Sandal(凉鞋) |
| 6 | Shirt(汗衫) |
| 7 | Sneaker(运动鞋) |
| 8 | Bag(包) |
| 9 | Ankle boot(踝靴) |
———————————————–分割线—————————————————-
| 名称 | 描述 | 样本数量 | 文件大小 | 链接 |
|---|---|---|---|---|
train-images-idx3-ubyte.gz |
训练集的图像 | 60,000 | 26 MBytes | 下载 |
train-labels-idx1-ubyte.gz |
训练集的类别标签 | 60,000 | 29 KBytes | 下载 |
t10k-images-idx3-ubyte.gz |
测试集的图像 | 10,000 | 4.3 MBytes | 下载 |
t10k-labels-idx1-ubyte.gz |
测试集的类别标签 | 10,000 | 5.1 KBytes | 下载 |
数据制作:
在paper中有一点比较值得学习,就是图片如何制作成 28*28的灰度图的过程,可以借鉴此种方法来对自己的图片进行“resize”。
最原始图片是背景为浅灰色的,分辨率为762*1000 的JPEG图片。然后经过resampled 到 51*73 的彩色图片。然后依次经过以下7个步骤,最终得到28*28的灰度图
- JPEG –> PNG
- 裁剪背景
- 按比例: 将图像缩放,也就是将一个维度缩放至28
- 锐化
- 再扩充至28*28,再把object调整至图片中央
- 将负的像素点剔除
- 转化成28*28的灰度图
这一套方法觉得比平时仅采用resize或许会好,可以考虑尝试