AIシステムの最適化には高品質なデータとメンテナンスが必要です

AIテクノロジーを最高にするAIライフサイクルとは

AIライフサイクルとは、AIプロジェクトにおいて必要なデータを提供するためのデータ管理のプロセスのことを言います。この流れには、データ収集、モデル作成、モデルトレーニング、展開、評価などの一連のステップが含まれまれています。

AIテクノロジーは企業に欠かせない技術となってきました。しかし、多くの機械学習プロジェクトに取り組む企業の55%が、本番環境に導入することができて いません。

AIシステムの最適化には高品質なデータとモデリングと、評価の改善を繰り返すAIライフサイクルが必要です。AIの成功にとって重要な鍵は、AIアルゴリズムのトレーニングに使用するトレーニングデータの品質と、ライフサイクルによるメンテナンスです。

AIライフサイクルのための高品質なデータ

データサイエンティストは、工数の80%をデータ管理(クリーニング、ラベル付け、アノテーション)に費やしていることが知られています。「AIライフサイクルのデータ」とは、AIライフサイクルの各ステップで使われる、サイロ化されない高品質な「データ」を指します。このデータ中心のツールとベストプラクティスを開発することにより、データの取得と管理の複雑さを軽減し、データサイエンティストを支援すことができます。

高品質なデータがAI開発者を支援する

AIのライフサイクルには、データ収集、データ分析、エンジ ニアリング、アルゴリズムの選択から、改善のための持続可能なモデル構築、チューニング、テスト、展開、管理、監視、 フィードバックまで、さまざまな段階が含まれます。AIライフサイクル市場は、大きな成長を遂げており AIによるデジタルトランスフォーメーションを追求する企業 や、AIプラットフォームの採用の増加など、業界における先進的な事例に広がっています。

クリーンで機械学習に対応したデータは、AIおよび分析プロジェクトの前提条件です。機械学習で使用できるようにラベル付けや準備のできていないデータは、残念ながらAIプロジェクトの失敗の原因になります。低レベルのデータリテラシーを改善することが、AIプロジェク トの成功には欠かせなくなります。データサイエンティストやデータエンジニアだけでなく、組織内の全員がデータを理解して使用する必要があります。

AIライフサイクルの各ステップ

AIライフサイクルの4つの主要なコンポーネントの詳細

  • データ

    最終的に目指すのは高品質なモデルですが、優れたモデルをトレーニングするための生命線は、モデルで使用されるデータの量と品質にあります。

データ収集

品質に関係なく、可能な限り多くの生データを収集します。最終的にはコストの大部分が発生する場所であるため、その一部にのみアノテーシ ョンが付けられます。モデルのパフォーマンスに問題が発生した場合に、必要に応じて追加できるデータをたくさん用意しておくと便利です。

アノテーションスキーマを定義

これはライフサイクルのデータフェーズの最も重要な部分の1つであり、見過ごされがちです。アノテーションスキーマの構築が不十分だと、クラスとエッジケースが曖昧になり、モデルのトレーニングがはるかに困難になります。たとえば、オブジェクト検出モデルのパフォーマンスは、サイズ、ローカライゼーション、方向、削除などの属性に大きく依存します。したがって、アノテーションにオブジェクトサイズ、密度、オクル ージョンなどの属性を含めると、モデルが学習できる高品質のトレーニングデータセットを作成するために必要な重要なメタデータを提供できま す。

データアノテーション

アノテーションは、同じタスクを一度に何時間も繰り返し実行する退屈なプロセスです。そのため、アノテーションサービスは活況を呈しているビジネスです。その結果、アノテーターは多くの間違いを犯す可能性があります。ほとんどのアノテーション会社は最大エラー率を保証していますが、より大きな問題は、アノテーションスキーマの定義が不十分であるため、アノテーターがサンプルに異なるラベルを付けることです。これは、アノテーション会社のQAチームが見つけるのが難しく、自分で確認する必要があります。

データセットとアノテーションを改善

モデルのパフォーマンスを改善しようとすると、ほとんどの時間をここで過ごすことになります。モデルが学習しているがパフォーマンスが良く ない場合、原因はほとんどの場合、モデルのパフォーマンスの上限を作成しているバイアスとミスを含むトレーニングデータセットです。モデルの改善には、通常、ハードサンプルマイニング(モデルが失敗した他のサンプルと同様の新しいトレーニングデータの追加)、モデルが学習した バイアスに基づいたデータセットのリバランス、新しいラベルの追加と既存のラベルの改良のためのアノテーションとスキーマの更新などが含ま れます。

  • モデル

    このプロセスの出力はモデルですが、理想的には、このループに費やす時間を最小限に抑えます。

既存の事前トレーニング済みモデルを探索

ここでの目標は、可能な限り多くの利用可能なリソースを再利用して、モデル作成の最良のスタートを切ることです。転移学習はこのプロセス のディープラーニングの中核となるテナントです。モデルを最初から作成するのではなく、関連するタスクで事前にトレーニングされた既存のモデルを微調整する可能性があります。

トレーニングループの構築

データは、モデルの事前トレーニングに使用されたものとは何らかの形で異なる可能性があります。画像データセットの場合、モデルのトレーニングパイプラインを設定するときに、入力解像度やオブジェクトサイズなどを考慮する必要があります。また、ラベルのクラスと構造に一致するようにモデルの出力構造を変更する必要があります。

トレーニングの追跡

このサイクル全体では、複数の反復が必要になる可能性があります。最終的にはさまざまなモデルをトレーニングすることになります。そのため、 モデルのさまざまなバージョンと、トレーニングされたハイパーパラメータとデータの追跡に細心の注意を払うことで、物事を整理するのに大いに役立ちます。

  • 評価

    トレーニングデータを学習したモデルを取得できたら、 次に掘り下げて、新しいデータでどれだけうまく機能す るかを確認します。

モデル出力の視覚化

トレーニング済みのモデルができたら、すぐにいくつかのサンプルで実行して出力を確認する必要があります。これは、テストセット全体で評価を実行する前に、トレーニング/評価パイプラインにバグがあるかどうかを確認するための最良の方法です。また、2つのクラスのラベルが間違っている場合など、明白なエラーがあるかどうかも表示されます。

適切なメトリックを選択する

1つまたはいくつかのメトリックを考え出すと、モデルの全体的なパフォーマンスを比較するのに役立ちます。タスクに最適なモデルを確実に選択するには、最終目標に沿ったメトリックを開発する必要があります。追跡したい他の重要な品質を見つけたら、メトリックも更新する必要があります。

失敗事例を抽出

モデルが行うことはすべて、トレーニングされたデータに基づいています。したがって、何かを学習できると仮定して、予想よりもパフォーマンスが低い場合は、データを確認する必要があります。モデルがうまく機能している場合を調べることは有用ですが、モデルが何かを誤って予測した場合の誤検知と誤検知を確認することが重要です。これらのサンプルを十分に調べた後、モデルの障害のパターンがわかります。

ソリューションの策定

障害のケースを特定することは、モデルのパフォーマンスを改善するための修正方法を見つけるための最初のステップです。ほとんどの場合、モデルが失敗した場所と同様のトレーニングデータの追加に戻りますが、パイプラインの前処理または後処理ステップの変更やアノテーションの修正なども含まれる場合があります。解決策が何であれ、モデルの問題を修正するには、モデルがどこで失敗するかを理解する必要があります。

  • 展開

    さまざまなエッジケースで大きなエラーが発生することなく、評価指標で適切に機能するモデルがあります。

モデルの監視

デプロイメントをテストして、評価メトリックや推論速度などに関して、モデルがテストデータで期待どおりに実行されていることを確認します。

新しいデータの評価

本番環境でモデルを使用するということは、テストされたことのないモデルに新しいデータを頻繁に渡すことを意味します。評価を実行し、特定のサンプルを掘り下げて、モデルが検出した新しいデータに対してどのように機能するかを確認することが重要です。

モデルの理解を継続

モデルの一部のエラーやバイアスは根深いものであり、発見するのに長い時間がかかる可能性があります。代わりにクライアントによって発見された場合に問題を引き起こす可能性のあるさまざまなエッジケースや傾向について、モデルを継続的にテストおよび調査する必要があります。

機能の拡張

すべてが完全に機能している場合でも、モデルが期待したほど利益を上げていない可能性があります。新しいクラスの追加、新しいデータストリー ムの開発、モデルの効率化など、現在のモデルの機能を拡張してモデルをさらに改善する方法は無数にあります。システムを改善したいときはいつでも、MLライフサイクルを再起動してデータ、モデルを更新し、すべてを評価して、新しい機能が期待どおりに機能することを確認する必要があり ます。

AIライフサイクルのデータの管理

AIライフサイクルにおいてデータの重要性を知ることは、AIプロジェクトの最初のステップにすぎません。AIモデルのトレーニング に使用するデータが優れているほど、受け取る出力の品質が高くなり、投資収益率が高くなります。AIライフサイクルのデータの管理は、これからの企業のAIプロジェクトへの投資収益率をアップしてAIを活用のための作業をより簡単に拡張できます。