AudioSetデータセット – AIデータのアノテーションサービス

AudioSetは、YouTubeの動画を集めて10秒ほどのサウンドクリップに分割し、各部分を音声の種類ごとに手動で分類したデータセットです。

アノテーションが付与された動画の数は210万に及び、527の音声クラスに分けられています。

人間や動物から発せられる音、自然環境の音、楽器から雑音まで、幅広い音をカバーしていて、多様な音声データを取得できます。

それぞれのクラスは階層化して整理されていて、「人間の音」というクラスの子クラスには「人間の声」、「口笛」などのクラスが含まれています。そのため目的のデータを検索するのは簡単です。

ホームページ等ではデータの数が比較的多い音楽、スピーチなどのデータの品質は高く評価されています。しかし、YouTubeから集めた音声データであるため、複数の音声が含まれていることもあり、品質が低下している可能性もありそうです。

ダウンロード形式は、

・YouTube video IDや開始時刻、終了時刻等の情報が入ったcsvテキストファイル

・TensorFlowレコードファイル

となっています。