AIの機械学習に必須のアノテーションとは
1952年4月に我が国の子供たちを夢中にさせたSFマンガの大ヒーロー「鉄腕アトム」の連載がスタート。その4年後、1956年夏に米国ニューハンプシャー州のダートマス大学で史上初の「人工知能に関する会議」が開催され、「Artificial Intelligence(人工知能)」という言葉が初めて使われました。
現在では、人間のように自ら情報を認識・処理・判断するコンピュータ「AI」はエンターテイメントの中から抜け出し、私たちの生活を大きく変えようとしています。
しかし、AIはどのように人の話す言葉を理解し、画像の中にあるものを認識しているのでしょうか。それを可能にしたのは、AIにさまざまな知識を学ばせる「機械学習」という手法で、その重要なカギを握っているのがAIのトレーニングには欠かせない学習データを作り出す「アノテーション」という作業なのです。
今回は、コンピュータが苦手の人でも理解できるように「アノテーション」について分かりやすく解説します。
アノテーションとは
アノテーション(Annotation)は、「注記」「注釈」を意味する言葉でコンピュータは画像や音声などの情報を直接理解することはできませんが、情報に注釈を添えてあげると「意味」を認識することができるようになります。
データ(情報)に関するデータを「メタデータ(Meta-data)」と言いますが、アノテーションはAIが認識できないデータにメタデータを付与し意味を持たせる作業で、アノテーションで作ったものを「教師データ」と呼びます。
例えば「秋田犬」の顔だけの画像に対し、「イヌ」「顔」「秋田犬」「茶色」などのメタデータを付与すると、AIはその画像がイヌ科イヌ属に分類される哺乳類で、部位は「顔」、犬種は「秋田犬」、色は「茶色」と学習することができます。 このようにアノテーションは、AI開発には欠かせないコンピュータのための学習教材「教師データ」を作る重要な作業であり、AIの性能はアノテーションの出来・不出来によって左右されるのです。
AI(人工知能)には欠かせない機械学習
AIとは
「知能」自体の定義がまだ明確ではなく「AI」の定義についても専門家によって見解分かれていますが、IT大手企業IBMのサイトで紹介されている「Artificial Intelligence」に関する解説が現実的で分かりやすいのでご紹介します。
Artificial Intelligence(人工知能)とは人間の精神の能力を模倣するコンピュータ又はマシンの能力を指し、事例と経験から学習し、対象となるモノを認識し、言語を理解し応答し、意思決定を行い、問題を解決し、これらと他の機能を組み合わせで人間が行う可能性のある行為を実行する。
(IBM:https://www.ibm.com/cloud/learn/what-is-artificial-intelligence)
IBMの解説を整理すると、AIの機能は次の6つに分けることができます。
- 学習:サンプルや経験などから知識を得る
- 認識:対象物を認識する
- 言語理解及び応答:人間が作った言語を理解し、その言語に対し応答する
- 推論:学習・認識・言語などの情報を基に思考する
- 結論::推論により合理的な判断、問題の解決方法などを導き出す
- 実行/処理:結論に従いロボットや機械に指示を与え実行する
AI開発に見られる2つのタイプ「ANI」と「AGI」
前項で紹介したIBMのサイトでは、AIのタイプを次のように分類しています。
ANI(Artificial Narrow Intelligence)
ANIは「Week AI」とも呼ばれ、特定のタスクに特化して学習から実行までを行うタイプ。現在、実用化されているととんどのAIはこのタイプで、Appleの「Siri」、Amazonの「Alexa」、iRobotの掃除機「ルンバ」、自動車の自動走行システムなどに導入されています。
AGI(Artificial General Intelligence)
AGIは「Strong AI」とも呼ばれ、人間の脳の自律性を完全に再現するタイプです。AGIは、鉄腕アトムのようにさまざまな問題に対し、人間の介入なしに自分で考え判断することができますが、まだ理論の段階で実用例はありません。
機械学習とは
人間は、親や学校から受ける「教育」や成長の過程で得られた「経験」などからさまざまなことを学習しますが、「機械学習」は人的な教育や経験の代わりにAIに大量のデータを学習させ、それまで人間がプログラミングしていたアルゴリズム(問題解決の方法や手順)を自動的に構築させる技術です。
「機械学習」は、AI開発における中心的な技術であり、その方法も年々進化しています。次項では、機械学習の中心的な手法について説明します。
機械学習の種類
機械学習の種類は「教師あり学習」「教師なし学習」「強化学習」の3つに分類することができます。
教師あり学習(Supervised learning)
機械学習で多く利用されるのが、アノテーションの説明の中で紹介した教師データを使いAIに学習させる「教師あり学習」です。教師あり学習が完了すると初めて入力した情報でも正しく「認識」できる、あるいはそれが何であるかを「予測」できるようにする手法です。
例えば「誹謗中傷」というメタデータを付与された言葉が多く含まれるメールを「有害メール」、そうでないものを「無害メール」と認識し分類できるようになります。
教師なし学習(Unsupervised learning)
メタデータの付与されていない大量のデータをAIに与え、データが持つ類似性や規則性などの特性を分析し分類を行う「クラスタリング」や、データ間の相関関係を見つけ出す「アソシエーション」などを学習させる手法です。
2012年にGoogleのAIが膨大な画像データから「教師なし学習」によって自発的に猫を認識することに成功したとの発表は業界でも大きな話題となりました。
強化学習(Reinforcement learning)
与えた条件のもとで得られる結果に対し、AI自身が結果の価値を最大化・最適化するにはどうしたら良いか試行錯誤し自ら探し出すことを学習させる手法です。
例えば、自動走行の自動車が車庫入れを行う場合に「短時間」という条件をAIに与えると、スピード制御やハンドリングなどのシミュレーションにより最短時間で車庫入れをするアルゴリズムを構築します。
アノテーションの種類
アノテーションはデータの種類によって異なりますが、大きく分けると「テキストデータのアノテーション」「画像データのアノテーション」「音声データのアノテーション」に分類されます。
テキストデータのアノテーション
現在最も多く利用されているのがこのタイプ。一口でテキストと言っても、感情表現、指示・命令、固有名詞、技術、法律など世の中にあるほとんどのモノを表現することができるので、対象分野などを絞ってメタデータを付与するのが一般的です。
音声データのアノテーション
音声データは、言語や方言などによっても異なりますが、音声データにメタデータを付与することにより会話や会議の内容をテキスト変換することが可能になります。また、特定の感情を表す言葉を抽出することによりヘイトメールのフィルタリングなどにも応用することができます。
画像データのアノテーション
画像(動画)データのアノテーションは、画像に写っている対象物の特性などのメタデータを付与するものですが、代表的な3つの手法を紹介します。
対象物の検出(Object Detection)
画像の中の「人」「モノ」「テキスト」などに対しメタデータを付与しAIが検出できるようにします。
領域の抽出 (Image Semantic Segmentation)
画像の中にある対象物の領域を指定し、その対象物に関するメタデータを付与することによって、画像内の対象物をAIが認識できるようにします。
画像の分類 (Image Classification)
画像が写している対象物の「名称」「性別」「種類」「色彩」「サイズ」などさまざまな属性に関するメタデータを付与し、AIがその対象物を認識し細かく分類できるようにします。
アノテーションビジネスの今後
AIの学習においてアノテーション作業は不可欠ですが、膨大な量を手作業で行わなければならないので、長い時間と多額の費用負担がネックとなり二の足を踏む企業も少なくはありません。
しかし、既存の教師データを利用する手法や、学習済みのAIのシステムを他のAIに転用する手法など新しい技術も開発されています。さらに、アノテーション需要が高まるにつれてアノテーションサービスを事業として行う企業も増加しています。
今後、AIが私たちを取り巻く生活・ビジネス・教育・文化などの分野で浸透するに従い、アノテーション市場もさらに拡大してゆくことが予想されています。
AIの機械学習に必須のアノテーションとは/まとめ
今回は、コンピュータに学習させるための教材を作る「アノテーション」とそれに関わる「AI」や「機械学習」について解説してきました。
鉄腕アトムの世界に登場する、人間と共生するロボットや自動運転の宇宙ロケットなどはもはや夢物語ではなく現実になりつつあります。それを実現するのが「AI」であり、AIを教育する「機械学習」です。
AIが人間と同等にさまざまなモノに対し理解し・考え・判断するようになるまでには、膨大な量の知識を学習しなければなりません。その中心的な役割を担っているのが、地道な「アノテーション」作業なのです。