caffe学习(2): Cifar-100 tutorial

由于caffe官方和很多博客已经提供了mnist和cifar10在caffe上测试的教程,这里就不再复现这些教程了，今天和大家分享一下如何在caffe下训练cifar100数据集

一.数据准备

CIFAR-10 and CIFAR-100 datasetsCifar100和cifar10类似，训练集数目是50000,测试集是10000，只是分为20个大类和100个小类。

首先我们下载CIFAR-100 python version,下载完之后解压，在cifar-100-Python下会出现：meta,test和train三个文件，他们都是python用cPickle封装的pickled对象

[python] view plain copy

def unpickle(file):
import cPickle
fo = open(file, \'rb\')
dict = cPickle.load(fo)
fo.close()
return dict

通过以上代码可以将其转换成一个dict对象，test和train的dict中包含以下元素：

data——一个nx3072的numpy数组,每一行都是(32,32,3)的RGB图像,n代表图像个数

coarse_labels——一个范围在0-19的包含n个元素的列表,对应图像的大类别

fine_labels——一个范围在0-99的包含n个元素的列表,对应图像的小类别

而meta的dict中只包含fine_label_names,第i个元素对应其真正的类别。

但是caffe不支持这样的数据格式啊，下面我们用一段python脚本将其转换为大家熟悉的lmdb:

[python] view plain copy

import os
import cPickle
import numpy as np
import sklearn
import sklearn.linear_model
import lmdb
import caffe
def unpickle(file):
fo = open(file, \'rb\')
dict = cPickle.load(fo)
fo.close()
return dict
#调用sklearn对数据进行shuffle操作
def shuffle_data(data, labels):
data, _, labels, _ = sklearn.cross_validation.train_test_split(
data, labels, test_size=0.0, random_state=42
)
return data, labels
def load_data(train_file):
d = unpickle(train_file)
data = d[\'data\']
fine_labels = d[\'fine_labels\']
length = len(d[\'fine_labels\'])
data, labels = shuffle_data(
data,
np.array(fine_labels)
)
return (
data.reshape(length, 3, 32, 32),
labels
)
if __name__==\'__main__\':
cifar_python_directory = os.path.abspath(\'cifar-100-python\')
print(\'Converting...\')
cifar_caffe_directory=os.path.abspath(\'cifar100_train_lmdb\')
if not os.path.exists(cifar_caffe_directory):
X,y_f=load_data(os.path.join(cifar_python_directory, \'train\'))
Xt,yt_f=load_data(os.path.join(cifar_python_directory, \'test\'))
print(\'Data is fully loaded,now truly convertung.\')
#lmdb操作,将数据写入数据库
env=lmdb.open(cifar_caffe_directory,map_size=50000*1000*5)
txn=env.begin(write=True)
count=0
for i in range(X.shape[0]):
datum=caffe.io.array_to_datum(X[i],y_f[i])
str_id=\'{:08}\'.format(count)
txn.put(str_id,datum.SerializeToString())
count+=1
if count%1000==0:
print(\'already handled with {} pictures\'.format(count))
txn.commit()
txn=env.begin(write=True)
txn.commit()
env.close()
env=lmdb.open(\'cifar100_test_lmdb\',map_size=10000*1000*5)
txn=env.begin(write=True)
count=0
for i in range(Xt.shape[0]):
datum=caffe.io.array_to_datum(Xt[i],yt_f[i])
str_id=\'{:08}\'.format(count)
txn.put(str_id,datum.SerializeToString())
count+=1
if count%1000==0:
print(\'already handled with {} pictures\'.format(count))
txn.commit()
txn=env.begin(write=True)
txn.commit()
env.close()
else:
print(\'Conversion was already done. Did not convert twice.\')

ok,这样数据就被我们转换成熟悉的cifar100_train_lmdb和cifar100_test_lmdb了，大家可以拿去做训练了

二.探秘LMDB

这部分我们来看看LMDB数据库中数据，并将其转化为可视化的png格式,直接上代码:

[python] view plain copy

import lmdb
import os
import cv2
import cPickle
import caffe
from caffe.proto import caffe_pb2
def unpickle(file):
fo = open(file, \'rb\')
dict = cPickle.load(fo)
fo.close()
return dict
if __name__==\'__main__\':
#得到label具体对应的种类
meta=unpickle(os.path.join(\'cifar-100-python\', \'meta\'))
fine_label_names=meta[\'fine_label_names\']
env=lmdb.open(\'cifar100_train_lmdb\')
txn=env.begin()
cursor=txn.cursor()
datum=caffe_pb2.Datum()
i=0
for key,value in cursor:
datum.ParseFromString(value)
if i<10:
data=caffe.io.datum_to_array(datum)
label=datum.label
img=data.transpose(1,2,0)
#图片名字为其类别
cv2.imwrite(\'{}.png\'.format(fine_label_names[label]),img)
i+=1
env.close()
print(\'there are totally {} pictures\'.format(i))

运行一下之后，本地目录下就会出现训练集中的前十张图片,打开看一下,由于分辨率只有32x32,所以图像很不清晰，这里就不贴了。这个script也可以应用到其他的lmdb数据库中，大家可以看一下mnist中的数据，也可以看一下ImageNet的数据,这里贴一张我在ilsvrc12_val_lmdb中转换出来的一张图片:

三.Data Augmentation

其实做完第一步，得到的数据已经可以用来进行训练运行了,但是这里我们实验对比一下data augmentation的强大之处。常用的data augmentation有horizontally flipping, random crops and color jittering.