今改めて Speech Service ができること～ Speech-to-Text, Text-to-Speech, Speech Translation 全部入り、Container 対応

Cognitive Services Speech Service

Pre-ready の AI 機能を今日すぐに使える “AI パーツ” Cognitive Services のサービス群のうち、音声↔テキストの機能を提供するのが Speech Service です。(以前は Web サイト上でも Speech-to-Text, Text-to-Speech, Speech Translation と分かれていましたが、Speech Service として統合されました。) それぞれの機能は以下のようになっています;

Speech-to-Text: 音声のテキスト化(文字起こし)

Web API と SDK が用意されており、継続的な(15秒以上～)の音声文字起こしは SDK を利用する必要があるなど、少々利用方法が異なります。

標準の Speech-to-Text 機能はカスタマイズすることが可能です。
固有名詞やドメイン特有の用語の登録を行う、発音やイントネーションの修整をテキストと音声データセットで学習させるなど、複数の方法が用意されています。

https://docs.microsoft.com/ja-jp/azure/cognitive-services/speech-service/how-to-custom-speech-train-model#use-training-to-resolve-accuracy-issues

音声をテキスト化する、いわゆる “文字起こし” に加えて、複数人の会話を聞き分けて発言者情報も付加する “会話起こし” の機能が追加されています。(※会話起こしは2019年7月現在 en-US (英語), zh-CN (中国語) のみの対応)

大量の音声データをバッチ処理したい場合などは、専用の Batch Transcription API が用意されています。

Text-to-Speech: テキストの音声化(読み上げ)

これまでの Standard Text to Speech に加えて、DNN (Deep Neural Network) によるより自然な Neural Text to Speech が提供されています。

Speech-to-Text と同様に、Text-to-Speech も文章と音声ファイルをセットで学習されることにより、カスタマイズすることが可能です。(Custom Voice)

Speech Translation: 音声翻訳

音声を直接翻訳して音声出力するサービスです。テキストからテキストへの翻訳機能は “テキスト翻訳” と呼ばれ、Cognitive Services では Text Translation という名称でサービス提供されています。

Speech-to-Text & Text-to-Speech のコンテナー対応

エッジコンピューティング対応として、デバイス内で Speech Service の機能を利用したい場合、Docker コンテナーとしてデバイス内に配置することで (インターネット接続なしで) 利用することができます。

Speech Service 活用例 : Immersive Reader

Cognitive Services Immersive Reader というサービスで、読み上げや翻訳の機能を容易に提供するサービスを提供しています。Microsoft OneNote の Web サイトで Immersive Reader をブラウザーから試用できます。

#CognitiveServices 新規追加の #ImmersiveReader は文章読み上げ＋その場所を表示して読み書きの学習を助けるサービス📚https://t.co/rkUVEvlxxt
まずは OneNote で機能確認！→ https://t.co/bK8eylbWq3
SDK(JavaScript) で即アプリに組込可🐱
日本語＆東日本DC使えます💪 #Azure #AzureAI #cogbot pic.twitter.com/f9b28XBwha
— Ayako (@ayako_omori) June 21, 2019

Speech Service サンプルアプリ (C#, JavaScript)

音声の入力または出力があるため、Web API アクセスだけでは今一つ分かりにくいかと思いますので、是非サンプルコードにて動作を確認してください。
https://github.com/ayako/CogServicesSpeechSamples_201907

昨日の #cogbot 勉強会(Speech使いこなし)お越しいただいた皆様、有難うございました！改めて説明の資料はこちらに↓https://t.co/oSscySdQSn
サンプルとしてご紹介したSpeech-to-TextのUWPアプリによる文字起こしを動画で(カスタムなし)🐱https://t.co/yDJ6cQhkkP #Azure #CognitiveServices pic.twitter.com/fPNE7GGqL4
— Ayako (@ayako_omori) July 26, 2019

今改めて Speech Service ができること ～ Speech-to-Text, Text-to-Speech, Speech Translation 全部入り、Container 対応