最終更新日:2024-02-05
画像認識や動画認識技術などを使ったAIサービスの開発における、教師データの作成負担が大きいと感じている方へ。アノテーション作業を自動化し、教師データ作成の負荷軽減に役立つAIアノテーションツールをご紹介します。
AIアノテーションツールとは、AIの精度を高めるために必要な教師データ(訓練データ)の作成作業、すなわちアノテーションを自動化もしくは効率化できるツールのことを指します。
画像認識や音声認識、自然言語処理など、ツールによって強みが異なるため、目的に適したツールを選ぶ必要があります。
アノテーションとは、画像や動画、音声、テキストといったデータから、抽出したい対象を選択し、属性をタグ付けして、教師データを作成することです。こうして作成した教師データを取り込んで機械学習をすることで、AIの精度が向上します。
数百ものデータ一つひとつにタグや情報を付与する必要があるので、手作業でのアノテーションには膨大な時間と人手、コストが必要に。そのうえ、単純作業ではないので「誰でもできる」というわけではありません。運用ルールの策定や人材のアサインも必要になるでしょう。
これらの課題を解決するために有効なのが、AIアノテーションツールです。
アノテーションツールの主な機能として、下記のようなものがあります。
画像の中から対象物を選択してラベルを付ける、音声をテキストとして書き起こして単語にタグ付けを行うといった作業を効率化します。
独自のAIモデルを使用して、画像の中の対象物を自動で検出。ラベルの付与まで自動化します。自動アノテーションをしたデータに対して、手作業で確認・修正を加えることも可能。
画像に特定の処理を加えて、訓練データに用いる画像を増やせる機能。元画像に付与されたラベル情報が保存されているので、増えた画像に対するアノテーション作業は不要です。
YOLO、COCO、Pascal VOC、CSVなど、様々な形式でのデータ出力が可能。フレームワークによって使用するAIモデル形式が異なるので、複数の出力形式に対応しているものがおすすめです。
タグ付けをした画像にフィードバックコメントを付与できる機能。レビュー作業の効率化に役立ちます。
作業状況やアノテーション作業データをリアルタイムで確認できるので、サービス開発のスケジュール管理に便利。データのバージョン管理ができるツールも。
ツールによるアノテーション作業の自動化・効率化だけでなく、代行サービスを提供するサービスもあります。
AIアノテーションツールをお探しの方は、こちらからサービス紹介資料をダウンロードいただけます。
導入ツールを検討する際に注目したい、4つの比較ポイントについて解説します。
アノテーションの対象となるデータはツールによって異なります。画像のみのツールもあれば、文章・音声・動画にも対応したツールもあるので、利用目的に適したツールを選ぶのが重要です。「FastLabel」のように画像認識をベースに、「自動運転」や「ロボティクス」など幅広い分野にソリューション提供するツールや、「Labelbox」のように医療分野の画像認識に強みを持つツールなどがあります。
導入検討の際には、どんなAIサービスを開発するのか、そのためにどんな教師データが必要なのかを明確にしておく必要があるでしょう。
対象データを高精度かつ効率的に抽出するには、データにあった抽出方法を備えたツールを使う必要があります。
画像を対象とした抽出方法だけでも、矩形・円形・多角形・ポリゴンといった図形を使った抽出、オブジェクトの関節などにキーポイントを打つ抽出方法、ペンツールと消しゴムツールを使った抽出など、様々なものがあります。「V7」は画像データだけで、15種類もの抽出方法がそろっています。
また、「SuperAnnotate」のように、テキストやPDF、表などのドキュメントからテキスト情報や固有表現を抽出できるツールも。
多数の作業者が同時並行でアノテーションを行う場合、作業支援機能や管理機能が搭載されていると、作業自体の効率化とスケジュール管理に役立ちます。
たとえば、「FastLabel」は、タグ付け済の画像にコメントを付与できるので、作業者へのフィードバックをはじめとしたコミュニケーションがスムーズに。加えて、レビュー・承認をスムーズにするワークフロー機能も搭載されています。
また、「HarBest Data」は、組織・メンバー管理機能や進捗管理機能、バージョン管理機能など、作業工程や品質を管理するために役立つ機能が充実。アノテーションツール内で管理作業もできるので、業務効率化が見込めるでしょう。
アノテーションツールを導入したとしても、データ収集~教師データ作成まで人的リソースが必要です。特にはじめてAIモデルを構築する場合は、作業委託サービスに対応しているサービスを検討するのがいいでしょう。
たとえば、「ANNOTEQ」は、独自のクラウドソーシングネットワークを用いることで、短納期でアノテーションの土台となる大量のデータ収集に対応。ベンダーが作業管理や品質管理などをワンストップで管理するため、手間なく高精度なアノテーション作業の代行が可能です。
また、「FastLabel」や「HarBest Data」は、認定作業者にデータ収集・作成を依頼できるため、機密性の高いデータを取り扱う場合におすすめ。選に新スタッフによる仕様確認やアノテーションマニュアルの作成にも対応しています。
国産の主なAIアノテーションツールを5つご紹介します。
(出所:ANNOTEQ公式Webサイト)
独自のクラウドソーシングネットワークを活用し、短納期で高精度の学習用データ作成に対応するアノテーションサービス。Webやリアルの画像や手書き文字データ、音声データ、動画など、アノテーションの土台となるあらゆるデータ収集に対応し、幅広い分野でのDeep Learningモデル構築を支援する。
大手企業のWeb事業者の業務委託系サービスと連携し、登録者数延べ1,400万人、実働100万人以上のリソースを活用し、1週間で10万件以上の大量作業の処理が可能。企業の要件や納期に応じて、複数回の分納や納品スピードの相談なども対応している。
BPO事業で培ったノウハウをもとに、品質管理も徹底。コンペア機能による高精度データの抽出や業務内容に応じた工程分解、データの機密性に応じたクラウドワーカと専任業者の適切配置などを通して、高精度の作業を実現する。
(出所:FastLabel公式Webサイト)
アノテーションの効率化と教師データ作成サービス、MLOps※構築に対応したオールインワンソリューション。100社以上で導入され、精度99.7%という高いデータ品質を実現している。
画像分類や文章分類、動画分類、音声認識など、様々な領域に特化したプロダクトがそろい、自動運転やロボティクス、医療・スポーツといった幅広いAIソリューション開発に役立てられる。カバー範囲が広いだけでなく、AIを使った事前アノテーションやプロジェクト管理機能、データ分析やデバックなど、作業効率化のための機能が充実している。
アノテーション作業の代行にも対応。AIによる自動アノテーションと、訓練されたアノテーターによるチェックを併用することで、低コストかつ短期間でのアノテーションを実現。納品データのレビューや検品作業もプラットフォーム上で行え、ミスがあった場合は同じ料金内で修正対応が受けられる。
※MLOps:Machine Learning(機械学習)とOperations(運用)をあわせた造語。機械学習のライフサイクルを円滑に管理するための手法
(出所:ProLabel公式Webサイト)
アノテーション作業とデータセット管理の効率化、コスト削減に役立つ自動アノテーションツール。画像認識AI開発における教師データ作成に対応している。
プロジェクトを作成して訓練用の画像データを読み込めば、独自のAIが画像内のオブジェクトにラベルを付与して、自動的にアノテーション作業が行われる。自動アノテーションされたデータは、確認モードやハイライト機能を使って確認・修正作業を行うことで、高精度なものへとブラッシュアップできる。また、訓練用の画像データを増やしたい場合には、画像に反転やぼかしなど特定の処理を加えてデータセットに追加する「データ拡張機能」が便利だ。
出力フォーマットは、txt、xml、csv、jsonに対応。
(出所:AnnoStation公式Webサイト)
Webベースの画像認識AI専用アノテーションツール。アノテーション作業の効率やデータ品質の精度を向上させられる。ピクセルレベルで精緻なアノテーションを迅速に作成できる豊富なアノテーションツール、ラベルと属性値を組み合わせて作業効率を向上させるカスタム属性機能などを搭載。加えて、アノテーション画像そのものにフィードバックを添付したり、進捗状況をリアルタイムでレポートしたりと、管理業務の効率化を促進する機能もそろう。
また、アクセスできるメンバーや実行可能なアクションを制限できるので、機密性の高いデータを扱う際にも安心して利用できる。
AWSやAzure、Googleドライブといった外部データソースへの接続に対応。データの二重管理防止に役立つ。外部パートナーや顧客をレビュープロセスに招待して、コラボレーションを行うことも可能だ。
(出所:harBest Data公式Webサイト)
データ収集・作成をWeb発注し、画像・動画・音声などのアノテーションデータを簡単に作成できるアノテーションツール。Web経由で依頼すれば、全国各地のクラウドワーカーがデータ収集から作業を代行する。クラウドワーカーは一般ワーカーと認定ワーカーに分かれており、特別な条件がある場合や品質にこだわりたい場合には、一定基準の要件をクリアした認定ワーカーに作業依頼することもできる。
作業者への指示、不明点への回答といった管理タスクをシステムで代替できるので、管理者の負荷削減にも役立つ。品質管理についても「harBest for data」を使うことで、データチェックの自動化やツールを使ったデータの品質評価が可能に。データの品質評価を行うことで、学習データ品質向上が見込める。
海外製の主なAIアノテーションツールを4つご紹介します。
(出所:SuperAnnotate公式Webサイト)
画像、動画、テキストに対応したアノテーションツール。
画像アノテーションツールは、画像内の対象をピクセル単位で複数セグメントに分割したり、セマンティックモードとインスタンスセグメンテーションモードを切り替えたりできるほか、テンプレートを使った高精度かつ効率的なアノテーションを可能にしている。動画アノテーションツールも、物体の検出と追跡やピクセル単位でのトラッキング、姿勢推定など、様々なユースケースに対応できる機能を搭載。テキストアノテーションツールは文書分類や情報抽出に加えて、感情分析や翻訳、質疑応答にも対応可能だ。
また、ワークフローやバージョン管理など、プロジェクト管理のためのツールも用意されている。
(出所:V7公式Webサイト)
高精度で使いやすい画像・動画認識AIの開発をミッションに掲げるアノテーションツール。事前のトレーニング不要であらゆる対象物の自動アノテーションに対応している。対象物やその一部の周囲に、1秒以内にピクセル単位の精度でセグメンテーションマスクを作成。手作業でのアノテーションに比べて、80〜90%の作業時間削減が可能に。必要に応じてマスクの選択範囲を調整することもできる。
1分あたりのアノテーション数や総画像数、精度といった各作業者の成果をグラフ化する評価機能を搭載。アノテーション済画像の承認やリジェクト、フィードバックコメントの付与など、作業者とのコミュニケーションを円滑にする機能も。
画像や動画データの管理や作業の進捗管理、外部のアノテーターを無制限で招待できるコラボレーション機能を備えた、データセットマネジメントプラットフォームとの併用で、更なる作業効率化が期待できる。
(出所:Labelbox公式Webサイト)
教師データの作成や、人材・プロセスの管理をワンストップで実現するアノテーションツール。バウンディングボックスやセグメンテーションマスク、ポリラインなど、人間工学に基づいた描画ツールを使うことで、正確で直感的な対象の抽出が可能に。また、タグ付けの有無を問わず、データを整理、検索するためのデータキュレーションツール「カタログ」も用意されている。AWS上にある自社データに対する、アノテーション作業も可能。画像のほかに、文書や会話テキスト、音声、医療画像などのアノテーションにも対応している。
CSVやJSON、Pascal VOC、COCOなど、豊富な出力形式に対応。年間500ラベルまで無料で利用できる。
(出所:Amazon SageMaker Ground Truth公式Webサイト)
AWSが提供するアノテーションツール。6種類の組み込みラベリングツールを提供し、簡単かつ正確なアノテーション作業をサポートする。
画像分類や物体検出、セマンティックセグメーション、ラベル検証、文章分類、固有表現の抽出に対応。カスタムジョブも用意されている。これらのラベリングツールを使って、アノテーションを内製化できるほか、ワーカーに作業代行を依頼することも可能だ。ワーカーはAmazon Mechanical Turkに所属するパブリックワーカーと、自社社員を登録するプライベートワーカー、AWS Marketplace 登録済みの3rd パーティーベンダーの3種。自動アノテーションと、ワーカーによるアノテーションを組み合わせて、高精度の教師データを作成できる。
料金はラベル付けした対象の数に応じた従量課金制。ボリュームディスカウントもあり。
Github上に公開されているプログラムを使って、用意したサーバーに動作環境を構築する、オープンソース型のAIアノテーションツールを3つご紹介します。
(出所:CVATダウンロードページ)
Intelが提供する画像・動画向けアノテーションツール。領域検出や画像分類、セマンティックセグメンテーションといったタスクに対応している。多角形やバウンディングボックス、ポリゴン、ポイント、楕円といった抽出方法がそろう。自動、もしくは半自動のアノテーション機能が搭載されているので、アノテーション作業の効率化に役立つ。
ブラウザ上で使用できるので、複雑な環境設定をしなくても簡単に使える。CVATやDatumaro、YOLO、COCOなど、様々な出力形式に対応しているのも強み。
(出所:LabelMeダウンロードページ)
マサチューセッツ工科大学で開発された、画像・動画向けアノテーションツール。GitHub上で高評価を得ている人気ツールだ。
ポリゴン、長方形、円、線、ポイントといった方法で対象を抽出し、セマンティック/インスタンスセグメンテーション用のデータセットを作成できる。直感的な操作できるGUIが特徴で、クリックとマウス移動をするだけで対象の抽出が可能に。Pascal VOCやYOLO形式に対応。
(出所:VoTTダウンロードページ)
画像・動画向けのアノテーションツール。GUIなので、初心者でも簡単にタグ付けが行える。Windows、Mac、Linuxといった一般的な環境で使えるのも特徴だ。対象検出の予測モデルを使用して、アノテーション作業を効率化することも可能。トラッキング機能があるので、動画の対象検出が容易に。CNTK、Tensorflow(Pascal VOC)、YOLOといった出力形式に対応。
シンプルで使いやすいツールだが、メンテナンスの終了が発表されているので、継続的な利用には向かない。
高性能なAIサービス開発のために欠かせないアノテーション作業。AIを使ったサービスの普及とともにニーズが高まっていくことが予想されます。そして、クリエイティブな作業に注力するためには、時間や手間のかかるアノテーション作業を自動化、もしくは半自動化する必要があるでしょう。そこで役に立つのが、AIアノテーションツールです。
本記事でご紹介した4つの比較ポイントを参考に、自社に合ったAIアノテーションツール選びを検討してみてください。
また、日本語での操作やサポートに対応している国産ツールか、ユーザー数やノウハウが豊富な海外製ツールか、無料で使えるオープンソースツールか、といったポイントも検討材料になるでしょう。
AIアノテーションツールをお探しの方は、こちらからサービス紹介資料をダウンロードいただけます。
株式会社ユニメディア
マイクロタスク型クラウドソーシング連動の学習データ作成用アノテーションサービス。実働100万人以上の独自プラットフォームで高品質・短納期のAI構築を支援します。...
<重要なお知らせ> サイトリニューアルに伴い、初回ログインにはパスワードの再設定が必要です。
アスピックご利用のメールアドレスを入力ください。
パスワード再発行手続きのメールをお送りします。
パスワード再設定依頼の自動メールを送信しました。
メール文のURLより、パスワード再登録のお手続きをお願いします。
ご入力いただいたメールアドレスに誤りがあった場合がございます。
お手数おかけしますが、再度ご入力をお試しください。
ご登録いただいているメールアドレスにダウンロードURLをお送りしています。ご確認ください。
サービスの導入検討状況を教えて下さい。
本資料に含まれる企業(社)よりご案内を差し上げる場合があります。