AIプロジェクトの成功を左右する「データラベリング」とは
AI の精度を決めるトレーニングデータ
機械学習のプロジェクトを成功に導く上で、重要な要素に高品質なデータ収集と適切なラベル付けが挙げられます。
どれだけ高性能なアルゴリズムを用意したとしても、また適切なコンピューティングリソースが用意されていたとしても、トレーニングのための教師信号となるデータ品質が悪かったり、十分な量のデータセットを集めることができなければ、実用的なプロダクトは完成しません。
鍛えるためのラベル付け作業=データラベリング
データラベリングアノテーションとも呼ばれます。例えば次のような作業です。
- 画像中から「自動車」「人」「自転車」の領域に外接矩形を割り当てそれぞれに相当するラベル付けを行う
- 道路情報の画像の中から背景/道路/動くオブジェクトを塗りつぶしてラベル付けを行う
- 動画の各フレーム単位で、人物の関節およびそれらを結んだ線分(ボーンデータ)をポインティングする
- 人物の顔の画像をN種類の感情タイプに分類する
データに正解となる分類情報を付与することで、いわばAIモデルの「お手本」となる振る舞いを用意する重要な作業となります
正確なアノテーションの重要性
人間と同様、まちがった「お手本」で学習したAIは、期待と異なるふるまいをするようになりますし、いい加減なデータを「お手本」として学習させれば回数を重ねてもなかなか期待した精度に達しないでしょう。
プロジェクトの早い段階で正確にアノテーションされたデータを用意することは、AIを用いたプロジェクトを成功させる上で非常に重要な要素であるといえます。