常用数据集汇总

CIFAR-10

CIFAR-10 是由Hinton 的学生Alex Krizhevsky 和Ilya Sutskever 整理的一个用于识别普适物体的小型数据集。包含60000个32x32像素RGB三通道彩色图像，10个类别，每个类别6000个图像。有50000张训练图像和10000张测试图像。

数据集地址如下：The CIFAR-10 dataset

与MNIST 数据集比， CIFAR-10 有以下不同点：

(1) CIFAR-10 是3 通道的彩色RGB 图像，而MNIST 是灰度图像。

(2) CIFAR-10 的图片尺寸为32 × 32，而MNIST 的图片尺寸为28 × 28，比MNIST 稍大。

(3) 相比于手写字符，CIFAR-10 含有的是现实世界中真实的物体，不仅噪声很大，而且物体的比例、特征都不尽相同，这为识别带来很大困难。MNIST数据集展示的是不同人的手写0~9数字。直接的线性模型如Softmax 在CIFAR-10 上表现得很差。

CIFAR10数据集结构组成可分为这四个部分：

train_x:(50000, 32, 32, 3)——训练样本
train_y:(50000, 1)——训练样本标签
test_x:(10000, 32, 32, 3)——测试样本
test_y:(10000, 1)——测试样本标签

CIFAR-100

包含60000个32x32像素RGB三通道彩色图像，100个类别，每个类别600个图像。每个类有500个训练图像和100个测试图像。CIFAR-100中的100个子类被分为20个大类。每个图像都有一个“fine”标签(它所属的子类)和一个“coarse”标签(它所属的大类)。

地址：https://www.cs.toronto.edu/~kriz/cifar.html

大类	子类
水栖哺乳动物	海狸，海豚，水獭，海豹，鲸鱼
鱼类	水族鱼，比目鱼，鳐，鲨鱼，鳟鱼
花	兰花，罂粟，玫瑰，向日葵，郁金香
食物容器	瓶子，碗，罐头，杯子，盘子
水果和蔬菜	苹果，蘑菇，橘子，梨，甜椒
家用电器	时钟，电脑键盘，灯，电话，电视
家居家具	床，椅子，沙发，桌子，衣柜
昆虫	蜜蜂、甲虫、蝴蝶、毛虫、蟑螂
大型食肉动物	熊，豹，狮子，老虎，狼
大型人造户外用品	桥梁、城堡、房屋、道路、摩天大楼
大型户外自然景观	云、森林、高山、平原、大海
大型杂食动物和食草动物	骆驼，牛，黑猩猩，大象，袋鼠
中型哺乳动物	狐狸，豪猪，负鼠，浣熊，臭鼬
非昆虫无脊椎动物	螃蟹，龙虾，蜗牛，蜘蛛，蠕虫
人类	宝贝，男孩，女孩，男人，女人
爬行动物	鳄鱼，恐龙，蜥蜴，蛇，乌龟
小型哺乳动物	仓鼠，老鼠，兔子，鼩鼱，松鼠
树木	枫树、橡树、棕榈树、松树、柳树
交通工具	自行车、公共汽车、摩托车、小货车、火车
其他车类	割草机，火箭，有轨电车，坦克，拖拉机

ImageNet and ILSVRC2012

ImageNet是斯坦福大学教授李飞飞为了解决机器学习中过拟合和泛化的问题而牵头构建的数据集。该数据集从2007年开始建立，直到2009年作为论文的形式在CVPR 2009上面发布。直到目前，该数据集仍然是深度学习领域中图像分类、检测、定位的最常用数据集之一。ImageNet本身有1500万张图片，2万分类。其中有超过100万张图片有明确类别标注和物体位置标注。

基于ImageNet的比赛称为ILSVRC，全称是ImageNet Large-Scale Visual Recognition Challenge，每年举办一次，每次从ImageNet数据集中抽取部分样本作为比赛的数据集。“ILSVRC”一词有时候也用来特指该比赛使用的数据集，即ImageNet的一个子集，其中最常用的是2012年的数据集，记为ILSVRC2012（常用）。

地址：https://www.image-net.org/download.php

ILSVRC2012训练集	1000个分类	120万张图片
ILSVRC2012验证集	1000个分类	5万张图片
ILSVRC2012测试集	1000个分类	10万张图片

CIFAR10-C

CIFAR10-C是自然分布鲁棒性数据集的一种，使用五种不同强度的各种人工合成噪声来破坏CIFAR-10的测试集。其中包含四种加性噪音：高斯噪声(Gaussian noise)、散粒噪声(shot noise)、散斑噪声(speckle noise)和脉冲噪声(impulse noise)。文章地址：https://github.com/tanimutomo/cifar10-c-eval

数据集地址：https://zenodo.org/records/2535967#.XncuG5P7TUJ