Cognitive Services 概要＆アップデート de:code 2020 版 ~ １行説明つき全サービス一覧とチートシート

今年は完全オンラインイベントとなったマイクロソフトの技術イベント de:code 2020 。例年ながら Cognitive Services のセッションを担当しております。

D06: ”AI パーツ” であなたは何つくる？ Azure Cognitive Services アップデート
- セッション概要
- 2D/3D View (de:code20 に参加登録したアカウントでサインインが必要です)

セッションをご覧いただく際に 2D View を選択いただくと、字幕や再生スピード変更などの機能もご利用いただけます。

D06 セッションハイライト

Cognitive Services は 5 つのグループ、27種類が提供されているWeb API、”AI パーツ” です。(2020 年 6 月現在)

種類が多いので、27種類のサービスをそれぞれ１行で説明をつけてみました。カスタム対応 (カスタム前提のもの、カスタムできるもの) やコンテナー対応も合わせて確認できます。

また、どのサービスを使えばいいのか迷ったときに「〇〇をやりたい」から辿れるチートシートを各グループごとに作成したりしてみました。(こちらのチートシートは Vision | 視覚のものです。他のグループのものはセッション資料をご覧ください！)

最近の Cognitive Services の見どころ

セッション後記(?) になりますが、最近 Cognitive Services をデモつきでご紹介するなかで、お客様に特に高い関心を持っていただくサービスはこの辺りになります;

Form Recognizer

フォームのデータを細かい位置合わせナシで読み取り、Key-Valueで抽出するサービスです。

従来の OCR だとフォーム(入力箇所) の検出や細かい位置合わせが必要なのですが、そういった前捌きナシですぐ利用できるのが強みです。(手書き入力は Ink Recognizer をご検討ください)

Video Indexer

動画から字幕作成(&多国語翻訳)を行い　VTTフォーマットなどでダウンロード化。加えて動画の内容分析 (キーワードなどを抽出、人物やオブジェクトの認識) と共に配信用画面でも提供します。

Speech-to-text や Translator を使った機能はもちろんのこと、最近は Computer Vision | Face | Text Analytics を取り込んだ機能が充実しています。Preview で Custom Vision も統合できる機能も登場しており、Custom Vision で作成したオブジェクト認識モデルを取り込んで、動画の中から検出することができるようになっています。

Text-to-Speech

文字通りテキスト→音声 (テキスト読み上げ) を行うサービスです。(API Response として音声ファイルの形で提供されます)

Neural Network 対応のエンジンになってから、より自然な読み上げに近づいてきており、最新の日本語音声 (ja-JP-NanamiNeural) ももちろんNeural対応、一度お聞かせすると驚かれることの多いサービスです。以前に公開した Text-to-Speech のサンプルもそちらに更新していますので、一度お試しください。

Anomaly Detector

時系列の単変量データを分析し、異常検知を行うサービスです。

単変量 (入力は1つ) にはなりますが、これまで検出に手間のかかっていた周期的なパターンの場合でも、その周期を自動検出して異常値を推定することが可能です。

Microsoft Docs > Azure > Cognitive Services > Anomaly Detector API とは

Personalizer

過去データからの傾向＋変化する状況を加味して、レコメンドを超えた “パーソナライズ” 推測値を提供し、自動で精度向上フィードバックをも取得し、学習させることができるサービスです。

効果的なパーソナライズを行うためには、過去データが10万件以上が推奨されています。まずはレコメンドからスタートし、精度向上フィードバックを習得するという “学習モード” がPreview提供開始となり、データの収集を待たなくても早期導入が可能になります。

Microsoft Docs > Azure > Cognitive Services > Personalizer の仕組み