Moments in Timeデータセット
Moments in Timeデータセットは、100万本の短い動画に手動でアノテーションを付与したデータセットです。
視覚的、聴覚的に多様な動画が集められていて、複雑で抽象的なものを推論することに役立ちます。
各動画は3秒ほどの長さになっていて、339のクラス別に分類されています。
このデータセットの特徴は、音に依存するアクションのアノテーションがなされていることです。
バックグラウンドの音からしか判断できないような拍手などのアクションも分類されています。
視覚的な時間的推論は、例えばドアの開閉などにおいて難しい一方、聴覚の情報はその混乱を起こしにくいため、音の情報が動画のアクションを推定するために役立ちます。