Open image V6データセット
Open image V6データセットは、約900万の画像のアノテーションが行われた最大規模のデータセットです。
190万枚の画像に600の物体クラスに分類されたバウンディングボックスが1600万ほど付与されていて、これらは主に専門家が手動で付与したものであるため、精度と一貫性が確保されています。
また、350クラスに分類された物体のセグメンテーションのアノテーションは280万に及び、こちらも膨大な量のデータとなっています。
Open image V6の特徴
・視覚的な関係性(visual relationship)
・物語と画像の同期(localized narrative)
(日本語訳がないので自分で勝手に名付けています)
の二つが挙げられます。
視覚的な関係性
一つ目の「視覚的な関係性」のアノテーションとは、あるオブジェクトと関連性があるオブジェクトをペアにしてバウンディングボックスを付与したものです。ここで、オブジェクトというのは、その画像の中にある物体のことだけでなく、その物体のもつ性質や、人間や動物などの動作までもが含まれています。
例えば、「投げる」というオブジェクトを選択した場合、それに関連する「バスケットボール」「野球」などのオブジェクトが含まれる画像群がデータセットとして取得できます。
これらの画像は、「ギターを弾く女性」、「テーブルは木製」、「男性がジャンプしている」など、関連性のある二つのオブジェクトに対してその関係性を表す文章を生成するときなどに利用できます。こうした視覚的な関係性の情報は、1466の関係性クラスとして330万ほどアノテーションされています。
画像(https://storage.googleapis.com/kaggle-media/competitions/open-images/man%20playing%20guitar.png)
物語と画像の同期
二つ目の「物語と画像の同期」を説明します。
以下の動画を参照するとわかりやすいかと思います。
画像には、その画像を物語のように説明するテキストが添付されています。アノテーターはそれを読み上げながら、説明している場所をマウスカーソルで追跡して、その軌跡を残します。このようにすることで画像の視覚的な情報とテキストの情報が同期され、助詞などのより多くの単語と画像の状況が一致するようになりました。
「物語と画像の同期」のアノテーションは、人間の曖昧な物事の捉え方を反映していて、人々が画像をどのように認識するかに関する認知科学的な研究に利用できそうです。この音声、テキスト、マウスカーソルによる追跡のアノテーションは、50万の画像に付与されています。