MNISTデータセット
MNIST(Mixed National Institute of Standards and Technology database)データセットは、手書き数字60000枚と、テスト画像10000枚が入ったデータセットです。
手書きの数字に0〜9の正解ラベルが付与されていて、画像認識に利用できます。
データ数も適量で、初心者が機械学習の画像認識を勉強するときなどに役立ちます。多くのライブラリで簡単に取得することができるため、とても人気の高いデータセットになっています。
MNISTに類似したデータセットも多く存在していて、例えばKMNIST(Kuzushiji-MNIST)というものがあります。人間が古文書を読むのを手助けするのに役立てようという目的で、人文学オープンデータ共同利用センターによって作成された日本古典籍くずし字データセットというものがあり、それを機械学習に適する形に加工したものです。データ量は上と同じ70000枚です。
また、ファッションECのZalandoが提供している、Fashion-MNISTというデータセットも存在しています。
ラベル「0」: T-shirt/top(Tシャツ/トップス)
ラベル「1」: Trouser(ズボン)
ラベル「2」: Pullover(プルオーバー、頭から被って着る服)
ラベル「3」: Dress(ドレス)
ラベル「4」: Coat(コート)
ラベル「5」: Sandal(サンダル)
ラベル「6」: Shirt(シャツ)
ラベル「7」: Sneaker(スニーカー)
ラベル「8」: Bag(バッグ)
ラベル「9」: Ankle boot(アンクルブーツ、かかとが隠れる丈のブーツ)
というように10種類のラベルが付与されていて、画像に映っている衣服の種類を特定することができます。データ量は同様に70000枚となっています。