AIライフサイクルの各ステップを一元管理する

データリテラシーを改善する「AIデータ ALM」

データサイエンティストやデータエンジニアだけでなく、プロジェクトに関わる全てのメンバーのデータリテラシーの改善がAIプロジェクトの成功には欠かせません。

高品質なデータ収集とモデリングと、評価の改善を繰り返すAIライフサイクルでは、安全で効率の良いデータ管理システムが重要です。サイロ化されないAIのためのデータ共有プラットフォームで、高いパフォーマンスの学習データを素早く、大量に収集•管理することが可能です。

AIデータ ALMの機能

AIライフサイクルのためのデータ収集と管理でデータサイエンティストを支援するさまざまな機能

Function① データの保護

Life cycle Data収集

データの再収集 → リアルデータの収集 → アノテーション

AI学習データにおけるデータのバージョン管理は要となります。誤った時期のデータを使用することにより誤ったAIシステムの結果を得ることになります。互いに相関を持ったデータを正しく管理することで、データの上書きによるデータ喪失を防ぎ、Raw Data、アノテーションデータ、さまざまな大量の学習データも最大10世代まで保存することができ、万が一の場合に、どの世代にも復元することができます。また、完了済みのプロジェクトにおいても、教育目的においても以前の資料やデータが必要なケースが出てきます。そのために低コストで中長期にデータ保管ができるコールドドライブ機能が非常に役に立ちます。

データ暗号化

バージョン管理

コールドドライブ

Function② メンバー管理

Life cycle モデル構築

モデルの重み付け → パイプラインを設定

AIプロジェクトでは多数の社内外のメンバーが参画をすることで、権限を厳格にしたデータの管理が求められてきます。他部門との安全なファイル共有ができるとともに、一方で権限がないフォルダは、存在していることもわからないためプロジェクトを秘密裏に進めることも可能です。監査機能により、メンバーの履歴を確認することができるので、ログイン、ダウンロードアップロードなど、AIプロジェクトメンバーの行動履歴も管理できます。また、必要なファイルを探し出す際にもメタデータ検索機能で、ファイル名、フォルダ名や、保存場所がわからないメンバーも閲覧を許可されたファイルであれば、キーワードから瞬時に該当ファイルを探し出すことができます。

チームドライブ

ファイルリクエスト

メタデータ検索

Function③ BCP対策

Life cycle トレーニング

モデルのトレーニング → トレーニング追跡とハイパーパラメータバージョン

プロジェクトの遂行にあたって、AIデータの保存先を常に意識してバックアップを取ることは困難です。個人のデバイスから簡単にWebブラウザからアップロードをしたり、クライアントプログラムでデータをバックアップすることで、負荷が大きく軽減されるとともに、万が一のときにデータを喪失することなく保持することができます。企業、病院施設、公共機関など、大掛かりなシステムをもつ組織を狙ってくるランサムウェア攻撃(身代金強奪マルウェアによる暗号化)からもデータを守ることが可能です。

個人ドライブ

フォルダーコピー

自動バックアップ

Function④ アクセス権限

Life cycle 展開

計算および評価指標 → 個々の失敗事例を抽出→本番の結果を反映したデータ

学習データを本番環境に展開し、エラー/更新した新しいデータを収集しても、データの管理共有のプロセスにおいて、漏えいリスクを排除することは、AIライフサイクルマネジメントにとって重要な課題です。AIライフサイクルの中で収集されるローデータ、アノテーション済みデータ、更新されたデータなどの膨大な量のデータを厳格なアクセス権限を持って管理し、共有することができます。さらに、セキュリティレベルの向上やコンプライアンス統一、ガバナンス体制の強化を実現する保護機能が満載です。

2段階認証

透かし機能

権限管理