Datasets

CIFAR10 small image classification

50,000个32x32彩色训练图像的数据集,标记了10个类别,以及10,000个测试图像.

Usage:

from keras.datasets import cifar10

(x_train, y_train), (x_test, y_test) = cifar10.load_data()
  • Returns:
    • 2个元组:
      • x_train,x_test:RGB图像数据的UINT8阵列形状(num_samples,3,32,32)或(num_samples,32,32,3)的基础上image_data_format任一的后端设置channels_firstchannels_last分别.
      • y_train,y_test :uint8形状为(num_samples,1)的类别标签(范围为0-9的整数)的数组.

CIFAR100 small image classification

50,000个32x32彩色训练图像的数据集,标记了100多个类别,以及10,000个测试图像.

Usage:

from keras.datasets import cifar100

(x_train, y_train), (x_test, y_test) = cifar100.load_data(label_mode='fine')
  • Returns:

    • 2个元组:
      • x_train,x_test:RGB图像数据的UINT8阵列形状(num_samples,3,32,32)或(num_samples,32,32,3)的基础上image_data_format任一的后端设置channels_firstchannels_last分别.
      • y_train,y_test :uint8形状为(num_samples,1)的类别标签数组.
  • Arguments:

    • label_mode :"精细"或"粗略".

IMDB Movie reviews sentiment classification

来自IMDB的25,000条电影评论的数据集,以情感(正/负)标记. 评论已经过预处理,并且每个评论都被编码为单词索引(整数) 序列 . 为了方便起见,单词以数据集中的整体频率进行索引,因此,例如,整数" 3"对数据中的第3个最频繁出现的单词进行编码. 这样可以进行快速过滤操作,例如:"仅考虑前10,000个最常用的词,而排除前20个最常用的词".

按照惯例," 0"不代表特定单词,而是用于编码任何未知单词.

Usage:

from keras.datasets import imdb

(x_train, y_train), (x_test, y_test) = imdb.load_data(path="imdb.npz",
                                                      num_words=None,
                                                      skip_top=0,
                                                      maxlen=None,
                                                      seed=113,
                                                      start_char=1,
                                                      oov_char=2,
                                                      index_from=3)
  • Returns:

    • 2个元组:
      • x_train,x_test :序列列表,它是索引(整数)列表. 如果num_words参数是特定的,则最大可能的索引值为num_words-1. 如果指定了maxlen参数,则最大可能的序列长度为maxlen.
      • y_train,y_test :整数标签(1或0)的列表.
  • Arguments:

    • path :如果本地没有数据(位于'~/.keras/datasets/' + path ),则将数据下载到此位置.
    • num_words :整数或无. 需要考虑的最常见单词. 频率较低的单词将在序列数据中显示为oov_char值.
    • skip_top :整数. 最常忽略的最常见单词(它们将在序列数据中显示为oov_char值).
    • maxlen :整数 最大序列长度. 更长的序列将被截断.
    • 种子 :int. 种子用于可重现的数据改组.
    • start_char :整数. 序列的开始将以该字符标记. 设置为1是因为0通常是填充字符.
    • oov_char :整数. 由于num_wordsskip_top限制而被num_words skip_top将被替换为该字符.
    • index_from :int. 使用此索引和更高的索引来索引实际单词.

Reuters newswire topics classification

来自路透社的11,228条新闻专线的数据集,标记了46个以上的主题. 与IMDB数据集一样,每条导线都被编码为单词索引序列(相同的约定).

Usage:

from keras.datasets import reuters

(x_train, y_train), (x_test, y_test) = reuters.load_data(path="reuters.npz",
                                                         num_words=None,
                                                         skip_top=0,
                                                         maxlen=None,
                                                         test_split=0.2,
                                                         seed=113,
                                                         start_char=1,
                                                         oov_char=2,
                                                         index_from=3)

规范与IMDB数据集的规范相同,但增加了:

  • test_split :浮动 用作测试数据的数据集的分数.

该数据集还提供了用于编码序列的单词索引:

word_index = reuters.get_word_index(path="reuters_word_index.json")
  • 返回:一个字典,其中键是单词(str),值是索引(整数). 例如. word_index["giraffe"]可能会返回1234 .

  • Arguments:

    • path :如果本地没有索引文件(位于'~/.keras/datasets/' + path ),它将被下载到该位置.

MNIST database of handwritten digits

包含10位数的60,000张28x28灰度图像的数据集,以及10,000张图像的测试集.

Usage:

from keras.datasets import mnist

(x_train, y_train), (x_test, y_test) = mnist.load_data()
  • Returns:

    • 2个元组:
      • x_train,x_test :uint8形状为(num_samples,28,28)的灰度图像数据数组.
      • y_train,y_test :uint8形状为(num_samples,)的数字标签数组(范围为0-9的整数).
  • Arguments:

    • path :如果本地没有索引文件(位于'~/.keras/datasets/' + path ),它将被下载到该位置.

Fashion-MNIST database of fashion articles

Dataset of 60,000 28x28 grayscale images of 10 fashion categories, along with a test set of 10,000 images. This dataset can be used as a drop-in replacement for MNIST. The class labels are:

Label Description
0 T-shirt/top
1 Trouser
2 Pullover
3 Dress
4 Coat
5 Sandal
6 Shirt
7 Sneaker
8 Bag
9 脚踝靴

Usage:

from keras.datasets import fashion_mnist

(x_train, y_train), (x_test, y_test) = fashion_mnist.load_data()
  • Returns:
    • 2个元组:
      • x_train,x_test :uint8形状为(num_samples,28,28)的灰度图像数据数组.
      • y_train,y_test :uint8形状为(num_samples,)的标签数组(范围为0-9的整数).

Boston housing price regression dataset

数据集取自卡内基梅隆大学维护的StatLib库.

样本包含1970年代后期波士顿郊区不同位置的房屋的13种属性. 目标是某个位置房屋的中位数(以k $为单位).

Usage:

from keras.datasets import boston_housing

(x_train, y_train), (x_test, y_test) = boston_housing.load_data()
  • Arguments:

    • path :本地缓存数据集的路径(相对于〜/ .keras / datasets).
    • seed :用于在计算测试拆分之前对数据进行混洗的随机种子.
    • test_split :保留为测试集的数据部分.
  • 返回: Numpy数组的元组: (x_train, y_train), (x_test, y_test) .