AudioSetデータセット
AudioSetは、YouTubeの動画を集めて10秒ほどのサウンドクリップに分割し、各部分を音声の種類ごとに手動で分類したデータセットです。
アノテーションが付与された動画の数は210万に及び、527の音声クラスに分けられています。
人間や動物から発せられる音、自然環境の音、楽器から雑音まで、幅広い音をカバーしていて、多様な音声データを取得できます。
それぞれのクラスは階層化して整理されていて、「人間の音」というクラスの子クラスには「人間の声」、「口笛」などのクラスが含まれています。そのため目的のデータを検索するのは簡単です。
ホームページ等ではデータの数が比較的多い音楽、スピーチなどのデータの品質は高く評価されています。しかし、YouTubeから集めた音声データであるため、複数の音声が含まれていることもあり、品質が低下している可能性もありそうです。
ダウンロード形式は、
・YouTube video IDや開始時刻、終了時刻等の情報が入ったcsvテキストファイル
・TensorFlowレコードファイル
となっています。