Cognitive Services が Project (プレビュー) を経てサービスイン、GA という歴史(?)を経て 4 年余り。サービスの追加や統廃合を経て、Cognitive Services として提供されている “AI パーツ” (Web API) は常時 20~30種提供されています。以下、2020 年 12 月時点の Cognitive Services の全体&提供されている各サービスをまとめます。
Cognitive Services とは
「機械学習(ML) を使ったことがない人でも AI (人工知能) をパーツ (Web API) として利用できるサービス」です。
特徴は、
- 学習データを用意しなくてもOK、カスタム(プリセットモデル+カスタム用の学習データ)可能なサービスもアリ
- 通常、自分で AI モデルを作成するには、その元となる大量の学習データ (画像なら 万単位) の準備が必要ですが、Cognitive Services はそういった学習データの準備やモデル作成の手間をかけることなく、即時 AI モデルを利用できます
- 少量の学習データを投入することで、利用するドメインに合った AI モデルを作成できるサービスもあります
- Web API または Docker コンテナーとして利用可能
- 即時 Web API として利用開始でき、今使っている言語や環境 から利用 | に組み込みできます
- エッジデバイスなどには Docker コンテナー として組み込むことで、都度 Web アクセスすることなくエッジで AI による分析を行うことが可能です
- Web API のリクエスト数による従量課金
- 無料版、および低価格で利用開始可能 (例えば Face : 無料版 = 30000 API Call/月, 有償版 = ~¥0.112/API Call)
- カスタムを行う場合は、学習データを保持するストレージ および 学習のためのマシン稼働(トレーニング) の費用が掛かる場合があります
Microsoft Azure Cognitive Services (サービスWebサイト)
Microsoft Docs > Azure Cognitive Services とは
Cognitive Services 一覧
Cognitive Services のカテゴリーと各サービス
カテゴリー | 機能 | サービス |
Vision | 画像解析 | Computer Vision, Custom Vision, Face, Video Indexer, Form Recognizer, Ink Recognizer (*2) |
Speech | 音声↔テキスト変換、解析 | Speech Services (Speech-to-Text, Text-to-Speech, Speech Translation, Speaker Recognition) |
Language | 言語解析 | Text Analytics, Language Understanding(LUIS), QnA Maker, Translator(text), Immersive Reader |
Decision | 意思決定(を助けるデータ解析) | Content Moderator, Anomaly Detector, Metrics Advisor, Personalizer |
Web Search (*1) | Web 検索 | Web Search, Video Search, Image Search, News Search, Custom Search, Entity Search, Visual Search, Local Business Search, Autosuggest, Spell Check, |
(*1) Web Search は、2020年11月から Cognitive Services から Bing Search Services に移行されます。
Microsoft Docs > Bing Search API とは
(*2) Ink Recognizer はサービスt提供終了(~2021/01)
Cognitive Services 全サービス”超”概要
Cognitive Services の全サービスとその”超”概要、ステータス(GA | Preview)、カスタマイズ可否などを一覧にまとめました。
カテゴリー別チートシート
Vision, Speech, Language カテゴリーの各サービスには似たような機能があります。用途から、どのサービスを利用すればよいのか “逆引き” できるチートシートを作成してみました。
Vision
Computer Vision は一般的なドメインの オブジェクト検出(Detection) が可能なので、特に人間(人の姿) の検出などは Face | Custom Vision でなく Computer Vision を使うほうが適切です。なお、Face による顔や表情の検出は写真に限られるため、絵画や漫画などから検出したい場合は Custom Vision をご利用ください。
Speech
Speech-to-Text, Text-to-Speech ともプリセットをそのまま使うこともカスタマイズも可能なモデルです。Video Indexer は Vision にカテゴライズされていますが、動画の分析を行う上で Speech のサービスが統合されています。
Language
Text Analytics はカスタムできませんが、ドキュメント(単文、またはまとまった文章) の分析を行うことが可能です。一方で Language Understanding (LUIS) はカスタマイズ(ドメインに合わせた作り込み) が前提になっています。QnA Maker は All-in-one タイプのサービスで、投入する FAQ は準備する必要があります。なお、Content Moderator は画像およびテキストの分析を行う機能があるため、Language のチートシートにも含まれています。
他のマイクロソフト製品|サービスへの組み込み
実は Cognitive Services は他のマイクロソフトの製品やサービスに組み込まれて利用されているケースや、組み込んで利用できる機能がついているものがあります。以下はその例をご紹介します。
- マイクロソフトの製品 | サービス (の一機能)として利用
- Microsoft Translator <- Speech-to-Text, Text-to-Speech, Text Translation, Computer Vision(OCR)
- Microsoft Office PowerPoint: 字幕 (原語、翻訳) <- Speech-to-Text, Text Translation
- Microsoft Office OneNote: 読み上げ <- Immersive Reader
- Seeing AI App <- Computer Vision (画像分析、OCR), Face
- 他の Cognitive Services への組み込み
- Video Indexer <- Computer Vision, Face, Speech-to-Text, etc
- Form Recognizer <- Computer Vision (OCR)
- Speech Translation <- Speech-to-Text, Text Translation, Text-to-Speech
- Immersive Reader <- Text-to-Speech
- Azure | 他のマイクロソフトのサービスに組み込んで利用可能
- Azure Cognitive Search <- Computer Vision, Face, Text Analytics, etc
- Azure Logic Apps <- 各種 Cognitive Services コネクター
- Power Automate <- 各種 Cognitive Services コネクター
Azure AI サービスのラインアップ
Microsoft Azure でご提供する AI サービスには、Cognitive Services で提供されているサービスやその機能に限らず、独自の AI モデルを構築したい方向けのサービス、ツールも用意されています。例えば以下のようなサービスがあります;
- Azure Machine Learning Studio
- データの取得からクレンジング、一般的な ML モジュールへの投入および学習、評価までを GUI で設定、実行できる Studio や Jupiter Notebook を動かせる Notebook などの機能を利用できます
- 機械学習用 Azure VM
- Azure Databricks (Appach Spark ベースのプラットフォーム)
- Azure Data Factory (データの取り込み、クレンジング、変換などを行う統合プラットフォーム)