Cognitive Services Speech Service
Pre-ready の AI 機能を今日すぐに使える “AI パーツ” Cognitive Services のサービス群のうち、音声↔テキストの機能を提供するのが Speech Service です。(以前は Web サイト上でも Speech-to-Text, Text-to-Speech, Speech Translation と分かれていましたが、Speech Service として統合されました。) それぞれの機能は以下のようになっています;
Speech-to-Text: 音声のテキスト化(文字起こし)
Web API と SDK が用意されており、継続的な(15秒以上~)の音声文字起こしは SDK を利用する必要があるなど、少々利用方法が異なります。
標準の Speech-to-Text 機能はカスタマイズすることが可能です。
固有名詞やドメイン特有の用語の登録を行う、発音やイントネーションの修整をテキストと音声データセットで学習させるなど、複数の方法が用意されています。
音声をテキスト化する、いわゆる “文字起こし” に加えて、複数人の会話を聞き分けて発言者情報も付加する “会話起こし” の機能が追加されています。(※会話起こしは2019年7月現在 en-US (英語), zh-CN (中国語) のみの対応)
大量の音声データをバッチ処理したい場合などは、専用の Batch Transcription API が用意されています。
Text-to-Speech: テキストの音声化(読み上げ)
これまでの Standard Text to Speech に加えて、DNN (Deep Neural Network) によるより自然な Neural Text to Speech が提供されています。
Speech-to-Text と同様に、Text-to-Speech も文章と音声ファイルをセットで学習されることにより、カスタマイズすることが可能です。(Custom Voice)
Speech Translation: 音声翻訳
音声を直接翻訳して音声出力するサービスです。テキストからテキストへの翻訳機能は “テキスト翻訳” と呼ばれ、Cognitive Services では Text Translation という名称でサービス提供されています。
Speech-to-Text & Text-to-Speech のコンテナー対応
エッジコンピューティング対応として、デバイス内で Speech Service の機能を利用したい場合、Docker コンテナーとしてデバイス内に配置することで (インターネット接続なしで) 利用することができます。
Speech Service 活用例 : Immersive Reader
Cognitive Services Immersive Reader というサービスで、読み上げや翻訳の機能を容易に提供するサービスを提供しています。Microsoft OneNote の Web サイトで Immersive Reader をブラウザーから試用できます。
Speech Service サンプルアプリ (C#, JavaScript)
音声の入力または出力があるため、Web API アクセスだけでは今一つ分かりにくいかと思いますので、是非サンプルコードにて動作を確認してください。
https://github.com/ayako/CogServicesSpeechSamples_201907