COCOデータセット

COCOデータセット

COCO(Common Object in Context)データセットは、Microsoft社が提供しているアノテーション付き画像のデータセットです。

用途

約20万のラベル付き画像が提供されていて、さまざまな用途に利用できます。

  • バウンディングボックス
  • セマンティックセグメンテーション
  • キーポイント
  • 画像キャプション
  • DensePose
  • Stuff

バウンディングボックスは150万個の物体に対して付けられていて、物体の認識などに利用できます。

セグメンテーションは80クラスの物体に対して付けられています。

人体の関節などの17箇所にキーポイントを付けた画像もあり、姿勢推定に利用できます。

画像キャプションは、画像の内容を言葉で説明したものです。各画像に対して5つの説明がつけられています。

特徴

COCOデータセットの特徴は、DensePoseアノテーションと、Stuffアノテーションの二つでしょう。

DensePoseアノテーションとは、2次元の動画から3次元の動作を抽出するために人体の表面に付けられたものです。人を検出し、その人が属しているすべての画像ピクセルを体の3D表面に対応させています。5万6000人分のアノテーションが付与されていて、人体の姿勢推定に利用できます。

DensePoseアノテーション

また、草、壁、空などの背景に映り込むもののカテゴリーをもつStuffというもののセグメンテーションがなされている画像もあります。