課題解決のためにどのようなモデルを設計するか
AIプロジェクトを進めるにあたっての選択肢は様々なものがあります。
そのような中で、アノテーションツールの選別は、開発者の皆さんにとってはあまり注目されないかもしれません。
ですが、ツールの選択・プロジェクトに与える影響は決して小さくありません。
AI開発の大半を占めるデータ処理とアノテーション
その理由は、とてもシンプルです。
AI開発会社へのアンケートの結果、平均的なAIプロジェクトにおいて、実に80%の時間がデータの準備に使われており、全体の25%はアノテーションに要する時間となっています。
参考:Cognilytica 2020 (https://www.cognilytica.com/document/data-preparation-labeling-for-ai-2020/)
プロジェクトの工数において、1/4 を占めるアノテーション作業をどうやって効率化するか。またどのように拡張していくか。その計画を考えておくことは、PoC(Proof of Concept)から抜け出しプロジェクトを成功に導く上で非常に重要なファクターです。
効率的な作業が出来なければアノテーションの精度も落ちます。時間をかけてAI学習を進めた結果、期待した精度が得られず、原因を調べた結果アノテーションの精度の悪さに起因していた・・・ということも起きかねません。
そこで、機械学習エンジニアの皆さまが、より良いAIモデルを効率的に構築するため、どのようなアノテーションツールがあるかご紹介していきます。
ツール比較のポイント
ツールを確認する際に注意すべきポイントをまとめてみました。ご自身のAI開発プロジェクトにマッチしたツールを探す上での参考としてください
比較ポイント | 説明 |
---|---|
種類 | 多くのツールは画像系、NLP系等、対応得意分野が異なっています。当たり前のことですが自分のプロジェクトに適合する種類を見つける必要があります。 |
アノテーションタイプ | 画像系のクラス分類であっても、教師データをBounding Boxにするのか、Polygon にするのか、Sematic Segmentationにするのか、等選択肢があると思います。それぞれのタイプに対応したツールを選別する必要があります。 |
配布方法 | アノテーション作業者複数を想定するなら、Webベースのアプリケーションが好ましい場合が多いでしょう。ただし自社サーバを立てる場合、セキュリティ等の問題も発生します。 |
管理機能 | アノテータの進捗や成績を管理する機能、タスクの自動配分機能が搭載されているツールもあります。個人作業であれば不要ですが、数名以上のチームで対応する場合は有効な機能です。 |
補助機能 | アノテーションの作業を部分的にAIに補助させる機能を搭載したツールが出てきています。ただし出来合いの分類は正しく動作しない場合もあるので、事前に確認すると良いでしょう。 |
価格(原価) | オープンソースの場合、無償のツールでもサーバ等を用意するとなると維持管理コストが発生するかもしれません。 逆に有償サービスであっても、特定条件では無償で利用できる場合もあります。 |
セキュリティ | SaaS型サービスの場合、サーバの設置場所(国)等も確認したほうが良い場合があります。社外へのデータ送付が許可されない場合は自社サーバやプライベートクラウドへの対応が必要な場合もあるでしょう。 |
拡張性 | より多くの教師データが必要になった際、スムースにユーザーが追加できるか、あるいはサービス会社への委託に切り替えられるか、なども考慮すると良いでしょう。 |
ライセンス | オープンソースではライセンスに注意を払いましょう。改造したソースの公開義務が発生する場合もゼロではありません。 |
ツールの比較
ここでは代表的なツールやツール提供サービスをご紹介します。
画像・動画系
名前 | 説明 | URL |
---|---|---|
Aimmo Enterprise | マネジメント機能が充実した画像系のアノテーションプラットフォーム。基本機能に加え、アノテータの成績評価、速度評価、Q&A、ガイドライン配布等、大規模プロジェクトにも対応したシステムです。 | Webサイトへ |
VOTT | Microsoft社が提供する無料のアノテーションツール。インストール型ですがWindows以外のプラットフォームでも利用可能。やMac、Linuxなどの互換性が問題なく利用できるのがメリットです。小規模プロジェクトや個人の作業に向いています。 | GitHubへ |
LabelBox | LabelBoxは、利用量が一定値を超えるまで無料で使用できる画像用アノテーションツール。SaaSですが、データはAWS S3等自社クラウド環境において接続することもできます。有料版では動画のセグメンテーションツールなど、より高度な機能が使えます。カスタマイズも考慮されています。 | Webサイトへ |
Image Annotation Programme | 画像用のオンラインアノテーションツールで、出力フォーマットは PascalVOC に対応しています。最後にGithubにコミットされてから4年ほど経過。更新が止まっているようです。 | GitHubへ |
LabelMe | マサチューセッツ工科大学(MIT)で開発されたWebブラウザ上で使用できるアノテーションツール。Semantic Segmentationができます。Github上の★数も8Kを超えています。 | Webサイトへ |
ImgLab | ImgLabはWebブラウザ上で行える画像アノテーションツール。物体の検出だけでなく、プラグイン経由で顔認証の補助ツールを利用可能です。 | Webサイトへ |
via | VIAはOxford大学で作成された画像、音声、映像に使用できるアノテーションツール。顔を追跡するアノテーションやタイムラインをみながらビデオのアノテーションができます。 | Webサイトへ |
labellmg | 2022年3月、AIDATA調べ でGithubで最も★数の多い(16.5K)オープンソースツールです。 日本語の情報も非常に多く、定番ツールといえるでしょう。 | GitHubへ |
FastLabel | FastLabel社様が提供するアノテーションツールで、権限管理や進捗管理などの機能に充実しています。国産ツールということで日本語のサポートも期待できます。サービスプランへの切り替えも可能。 | Webサイトへ |
Annostation | 株式会社Orni様が提供する、プロジェクト管理にも対応したアノテーションツール。セマンティックセグメンテーションがピクセル単位で精密にできます。 | Webサイトへ |
ANNOFAB | ANNOFABは日本企業の来栖川電算が提供している無料の高機能アノテーションツール。画像や時系列データ(動画、センサデータ、音声)のアノテーションができ、プロジェクトや課題の管理の機能も備えています。 | Webサイトへ |
SuperAnnotate | 画像、動画、テキストのアノテーションに対応した海外の有償サービス。アノテーションツールの枠を超えて、データキュレーションやアノテータの海外雇用等にも対応。 | Webサイトへ |
V7 | V7はAIを利用してアノテーションの自動化を行うツール。画像と動画のアノテーションができます。 ピクセル単位での精度の自動アノテーションによってアノテーションにかかる時間を短縮できます。 | Webサイトへ |
Amazon Sagemaker Ground Truth | Amazon SageMaker Ground Truthは、画像やテキスト等に対応したアノテーションツール。アノテータを自前で用意(Private)する以外に、他ベンダーへの委託や、AWSの用意する独立系業者への委託等も可能。 | Webサイトへ |
Innotescus Video and Image Annotation Platform | Innotescusは、機械学習を利用した画像、動画のアノテーションツール。物体追跡の自動化や画像アノテーションのサポートにより、高精度かつ高品質にアノテーションできます。 | Webサイトへ |
Dataloop | Dataloopはアノテーションツール、非構造化データ管理ツール、オートメーションパイプラインから構成された統合型ツール。アノテーションツールはAIによるアシストにも対応。 | Webサイトへ |
Playment | Playmentが提供するのはGT Studioという機械学習支援のラベリングツール。画像、動画及びセンサーデータのアノテーションができます。 オンデマンドで専用チームからアノテーター募集可能。 | Webサイトへ |
Ango Hub | 品質を第一に考えた様々なサイズのプロジェクトに対応したプラットフォーム。画像、点群、文書、テキスト、オーディオ等多様なデータフォーマットに対応。サービス型もあり。 | Webサイトへ |
BasicAI | BasicAIは機械学習を利用して多くの種類の非構造化データにアノテーションできるツール。 テキスト、画像、動画、音声、3D LiDerのアノテーションができます。 | Webサイトへ |
Clarifai | Clarifaiは、機械学習を利用したAIによる自動アノテーションができるツール。 画像、動画、テキストのアノテーションができます。 データをアウトソーシングして専門のアノテータに代替してもらうこともできます。 | Webサイトへ |
LinkedAI | LinkedAIは画像、テキストのアノテーションができるツール。 有料版ではプロジェクト管理やチームマネジメントの機能も備えていて、機械学習によるプレアノテーションの機能で作業を効率化できます。 | Webサイトへ |
Diffgram Training Data Software | Diffgramは、画像と動画のアノテーションができるツール。自動モデルトレーニングによる自動ラベリングができます。OSSで機能制限のついた無償版とサポート付き有償版があります。 | Webサイトへ |
Sixgill Hyperlabel | AIのサポートによって正確かつ迅速にアノテーションできるツール。 物体追跡を自動でアノテートしたり、共通の物体を自動でアノテートしたりすることができます。 | Webサイトへ |
TaQadam Image Annotation | TaQadamは画像アノテーション専用のツール。 特にGeoTagging等地理空間の画像分析に強いアノテーションプラットフォームです。 | Webサイトへ |
TrainingSet.AI Image And LiDAR Annotation Platform | TrainingSet.AIは、画像のアノテーション、LiDARのセグメンテーションができるツール。 テキストのラベル付けと分類はオプションで追加できます。 事前にトレーニングされたAIモデルを利用するか、独自のAIモデルを統合することで、事前にラベリングし時間が節約できます。 | Webサイトへ |
Universal Data Tool | Universal Data Toolは画像、動画、音声、テキストのアノテーションを行うオープンソースのアノテーションツールです。インストールは必要なく、誰でも簡単にwebブラウザから直接利用するか、Windows、Mac、またはLinuxデスクトップアプリケーションで使用します。 | Webサイトへ |
Jaxon.ai | Jaxonは教師なしデータ学習により作成された合成データを実際のデータに補強することでラベリングを自動化するアノテーションツール。様々な非構造化テキストのアノテーションができます。 | Webサイトへ |
Labeling AI | Labeling AIは利用可能な少量の事前にラベル付けされたデータに基づいて大量のデータに自動的にラベルを付けるディープラーニングベースのアノテーションツールです。画像、テキスト、動画のアノテーションができます。 | Webサイトへ |
manot | manotは航空写真などの画像、動画のアノテーションを行えるツール。回転したバウンディングボックスや、小さな物体の検出、マルチクラスオブジェクトのアノテーションを、機械学習による自動化で簡単にできます。 | Webサイトへ |
RedBrick AI | RedBrick AIは主に医療分野における画像、動画のアノテーションができるツール。アクティブラーニングを利用して自動アノテーションを行い、迅速にラベリングします。 | Webサイトへ |
Scale Nucleus | Scaleは、画像、動画、テキスト、音声、3D LiDer、マップのアノテーションができるツール。機械学習による自動ラベリングも行えます。 | Webサイトへ |
Supervisely Computer Vision Platform | Supervielyは画像注釈から正確なニューラルネットワークまでを10倍高速に反復します。ビデオラベリングや点群ラベリングに対応しているツールです。また、SupervielyはAPI、SDK、バックエンドのソースコードを提供しているため幅広くカスタマイズすることが可能です。 | Webサイトへ |
Swivl | 自然言語処理(NLP)とノーコードワークフローエディターを組み合わせることで、swivlはチームの時間を節約するためのツールとして活躍します。コーディングの知識は一切必要なく、ドラッグアンドドロップのようなビジュアルエディターを使用するのでデプロイするまでの時間を大幅に短縮します。 | Webサイトへ |
Classifai | Classifaiは、最も包括的なオープンソースのデータ注釈プラットフォームの1つです。AIモデルトレーニング用のマルチラベル出力フォームを使用したさまざまなデータタイプのラベル付けをサポートします。 | Webサイトへ |
CoCo Annotator | COCO Anotatorは汎用性と効率的な画像のラベル付けを目的として設計されたWEBベースの画像注釈ツールです。COCO Anotatorの特徴にはユーザーが自由形式の曲線またはポリゴンを使用して画像に注釈をつけることができるということがあげられます。 | GitHubへ |
DataGym | DATA GYMを使用すると、データサイエンティストと機械学習の専門家は、画像に最大10倍の速度でラベルを付けることができます。画像のほかに動画もサポートしていて調整可能な再生速度、サポートによるショートカット、およびシンプルなフレームごとのナビゲーションを使用して、ビデオを簡単にナビゲートできます。 | Webサイトへ |
deeplabel | deeplabel.appはディープラーニングのエンジニアと専門家によって構築されました。MLモデルを作成または作成済みのモデルをインポートすることによってラベリング速度を向上させることができます。 | Webサイトへ |
Etiketai | Etiketaiは、画像にラベルを付けるために設計されたオンラインツールであり、AIモデルのトレーニングに役立ちます。特徴としてはあらゆるデバイスから利用できることやインストールの必要がないこと, 操作性の簡易さが挙げられます。 | GitHubへ |
Fast Image Annotation Tool | FIATは、画像データの注釈、データ拡張、データ抽出、および結果の視覚化/検証を可能にします。データ拡張(サイズ変更、平行移動/回転/スケーリングのノイズ、ペッパーノイズ、ガウスノイズ、長方形のマージ、線の抽出…)を使用して、データをさまざまな形式(Caffe LMDB、OpenCVカスケード分類子、Tesseract …)に抽出します。 | GitHubへ |
ilastik | 機械学習アルゴリズムを活用して、細胞やその他の実験データを簡単にセグメント化、分類、追跡、カウントします。大規模なデータセットであっても、ほとんどの操作はインタラクティブです。ラベルを描画するだけで、すぐに結果が表示されます。 | Webサイトへ |
imannotate | Imannotateは、注釈のない画像のデータセットを複数のユーザーに広げて注釈を付けることにより、データセットを作成するのに役立つツールです。完了したら、すべてのアノテーションを含むCSVをエクスポートして、モデルをトレーニングできます。 | GitHubへ |
Label Studio | Label Studioは、オープンソースのデータラベリングツールです。オーディオ、テキスト、画像、ビデオ、時系列などのデータ型にシンプルでわかりやすいUIでラベルを付け、さまざまなモデル形式にエクスポートできます。生データを準備したり、既存のトレーニングデータを改善して、より正確なMLモデルを取得したりするために使用できます。 | Webサイトへ |
Pixano | Pixanoは、高度にカスタマイズ可能な画像およびビデオ注釈ツールを構築するための、スマートで再利用可能なコンポーネントのセットを提供します。ラベリング速度の向上のために組み込み機械学習およびコンピュータビジョンアルゴリズムを導入しています。 | Webサイトへ |
PicelAnnotationTool | ディレクトリ内の画像に手動ですばやく注釈を付けることができるソフトウェアです。マーカーによって手動でオブジェクトをなぞることによって物体を抽出します。 | GitHubへ |
scalabel | Scalabelは、2Dと3Dの両方のデータラベリングをサポートする、用途の広い注釈プラットフォームです。Scalabelはオープンソースのヒューマンマシンコラボレーションアノテーションツールのため半自動の注釈を使用することによってラベリングの速度を向上させます。 | Webサイトへ |
tator | Tatorは、研究者が膨大な量の画像データを調査および分析するのに役立つオープンソースのビデオ分析Webプラットフォームです。作成したデータはTator Cloudで管理されます。 | Webサイトへ |
DataQA | DataQAは、非構造化ドキュメントにラベルを付けて探索するためのツールです。ルールベースの規則によって他のアノテーションツールと比べて必要なラベル数を大幅に減らします。 | Webサイトへ |
TeamTat | TeamTatは、、チーム注釈プロジェクトの管理を容易にします。注釈マネージャーが注釈ワークロードを個人のグループに便利に分散し、個々の注釈を収集およびマージできます。 | Webサイトへ |
Banksy | Banksyは画像注釈ツールであり、画像上のNER(名前付きエンティティ認識)、NEL(名前付きエンティティリンク)、およびボックス領域を含むデータセットを出力します。このツールは、テキストデータの空間コンポーネントが重要なドキュメント(つまり、テキストがドキュメント内にある場所)に注釈を付ける必要がある場合に役立ちます。 | GitHubへ |
open-CRAVAT | OpenCRAVATは、バリアントの影響、注釈、スコアリングなどのゲノムバリアントの解釈を実行するPythonパッケージです。入力としてゲノム変異のファイルを受け取り、テキストレポート、Excelスプレッドシート、cravat_viewで使用される結果のSQLiteデータベースなどのいくつかの出力形式を提供します。OpenCRAVATは1時間あたり約100万のバリアントを処理できます。 | Webサイトへ |
PCGR | 精密腫瘍学のための個々の癌ゲノムの機能アノテーションと翻訳のためのスタンドアロンソフトウェアパッケージ。体細胞SNV / InDelsとコピー数多型の両方を解釈します。ゲノム解析などの生物学に関連した分野に有用です。 | Webサイトへ |
LATTE | LATTEを使用すると、LiDARポイントクラウドアノテーションを6.2倍高速化し、ラベルの品質を大幅に向上させることができます。インスタンスレベルの適合率と再現率が23.6%と2.2%高くなり、バウンディングボックスのIoUが2.0%高くなります。 | GitHubへ |
springzfx | これは、ポイントクラウドで3Dボックスに注釈を付けるために使用されるツールです。サポートされている機能として3Dボックスの生成と適応,平面検出によって地面の除去などがあります。 | GitHubへ |
YEDDA | YEDDA(以前のSUTDAnnotator)は、テキスト(英語、中国語を含むほとんどすべての言語)、記号、さらには絵文字にチャンク/エンティティ/イベントに注釈を付けるために開発されました。手でテキストに注釈を付けるのに非常に効率的なショートカット注釈をサポートします。 | GitHubへ |
Prodigy | Prodigyはスクリプト可能な注釈ツールです。Prodigyには豊富なPython API、エレガントなコマンドライン統合、および有用なJupyter拡張機能が付属しています。カスタムレシピスクリプトを使用すると、Prodigyを適応させてデータを好きなように読み書きしたり、お気に入りのフレームワークを使用してカスタムモデルをプラグインしたりできます。 | Webサイトへ |
doccano | doccanoは、オープンソースのテキスト注釈ツールです。感情分析、名前付きエンティティの認識、テキストの要約などのラベル付きデータを作成できます。特徴としてチームメンバーと共同でアノテーションができるTeam Collaboration機能や多言語サポートなどがあります。 | GitHubへ |
taglog | tagtogは、NLPデータセットを効率的に検索、作成、および維持するための共同テキスト注釈プラットフォームです。自動注釈は用語のコレクションをインポートまたは作成した辞書、もしくはユーザーの手動のアノテーションから継続的に学習したMLモデルや外部MLモデルをプラットフォームに接続することで利用可能です。 | Webサイトへ |
Tornado AI HITL | Tornadoは、オープンソースの機械学習ツールです。シンプルなWebユーザーインターフェイスを介して自身でモデルをトレーニングする教師付き学習を行います。 | GitHubへ |
react-image-annotate | バウンディングボックス、タグ付け、分類、複数の画像、ポリゴンのセグメンテーションを備えた画像注釈用のReactコンポーネントです。シンプルな入出力フォーマットが強みです。 | GitHubへ |
AOSデータが提供するアノテーションツール 『Aimmo Enterprise』
1億件以上のアノテーションの経験のノウハウを投入して開発されたアノテーションツールです。
アノテーションにおける機能をすべて網羅し、単なるアノテーション用のツールとは一線を画し、実績に裏打ちされた「アノテーションプラットフォーム」です。
アノテータの作業状態把握や、管理者とアノテータとの質疑対応を効率化し、アノテーション作業負荷の軽減します。