MNISTデータセット

MNISTデータセット

MNIST(Mixed National Institute of Standards and Technology database)データセットは、手書き数字60000枚と、テスト画像10000枚が入ったデータセットです。

手書きの数字に0〜9の正解ラベルが付与されていて、画像認識に利用できます。

データ数も適量で、初心者が機械学習の画像認識を勉強するときなどに役立ちます。多くのライブラリで簡単に取得することができるため、とても人気の高いデータセットになっています。

MNISTに類似したデータセットも多く存在していて、例えばKMNIST(Kuzushiji-MNIST)というものがあります。人間が古文書を読むのを手助けするのに役立てようという目的で、人文学オープンデータ共同利用センターによって作成された日本古典籍くずし字データセットというものがあり、それを機械学習に適する形に加工したものです。データ量は上と同じ70000枚です。

また、ファッションECのZalandoが提供している、Fashion-MNISTというデータセットも存在しています。

ラベル「0」: T-shirt/top(Tシャツ/トップス)

ラベル「1」: Trouser(ズボン)

ラベル「2」: Pullover(プルオーバー、頭から被って着る服)

ラベル「3」: Dress(ドレス)

ラベル「4」: Coat(コート)

ラベル「5」: Sandal(サンダル)

ラベル「6」: Shirt(シャツ)

ラベル「7」: Sneaker(スニーカー)

ラベル「8」: Bag(バッグ)

ラベル「9」: Ankle boot(アンクルブーツ、かかとが隠れる丈のブーツ)

というように10種類のラベルが付与されていて、画像に映っている衣服の種類を特定することができます。データ量は同様に70000枚となっています。