COCOデータセット
COCO(Common Object in Context)データセットは、Microsoft社が提供しているアノテーション付き画像のデータセットです。
用途
約20万のラベル付き画像が提供されていて、さまざまな用途に利用できます。
- バウンディングボックス
- セマンティックセグメンテーション
- キーポイント
- 画像キャプション
- DensePose
- Stuff
バウンディングボックスは150万個の物体に対して付けられていて、物体の認識などに利用できます。
セグメンテーションは80クラスの物体に対して付けられています。
人体の関節などの17箇所にキーポイントを付けた画像もあり、姿勢推定に利用できます。
画像キャプションは、画像の内容を言葉で説明したものです。各画像に対して5つの説明がつけられています。
特徴
COCOデータセットの特徴は、DensePoseアノテーションと、Stuffアノテーションの二つでしょう。
DensePoseアノテーションとは、2次元の動画から3次元の動作を抽出するために人体の表面に付けられたものです。人を検出し、その人が属しているすべての画像ピクセルを体の3D表面に対応させています。5万6000人分のアノテーションが付与されていて、人体の姿勢推定に利用できます。
また、草、壁、空などの背景に映り込むもののカテゴリーをもつStuffというもののセグメンテーションがなされている画像もあります。