AVAデータセット

AVAデータセット

AVA(atomic visual actions)は、2017年10月にGoogleから公開された人間の行動のラベルがついている動画データセットです。

atomic visual actions(分割できない視覚的行動)とは、より広い文脈の中でしか認識できないような行動のことで、これによってより精密に人間の行動を理解することにつながります。

AVAには以下の3つの種類のデータセットがあります。

・AVA kinetics

・AVA actions

・AVA spoken activity

AVA Kinetics

このデータセットは、Kinetics-700の動画データセットに新しくAVAのアノテーションを付与したものです。80のクラス別にアノテーションをつけた動画が約23万存在しています。

AVA actions

AVA actionsには、YouTubeから切り取られた3秒ほどの動画が57000ほどあり、ラベルの総数は21万に及びます。「歩く」、「蹴る」、「ハグする」などの動作の種類は80個あり、手作業でアノテーションされています。

AVA spoken activity

AVA spoken activity datasetにはAVA active speakerとAVA speechがあります。

AVA active speaker

このデータセットは、ラベル付けされた顔を追跡している動画のデータセットです。それぞれの顔には、話しているかどうか、および音声が聞こえるかどうかがラベル付けされています。39000人ほどの人の顔がアノテーションされています。

AVA speech

このデータセットは、動画内のスピーチと、背後の3つのノイズにアノテーションを付与したデータセットです。重複するノイズの存在に基づいて、より困難な条件でのモデルのパフォーマンスの分析が可能になります。46000ほどの動画があります。