今改めて Speech Service ができること ~ Speech-to-Text, Text-to-Speech, Speech Translation 全部入り、Container 対応

  • by

Cognitive Services Speech Service

Pre-ready の AI 機能を今日すぐに使える “AI パーツ” Cognitive Services  のサービス群のうち、音声↔テキストの機能を提供するのが Speech Service です。(以前は Web サイト上でも Speech-to-Text, Text-to-Speech, Speech Translation と分かれていましたが、Speech Service として統合されました。) それぞれの機能は以下のようになっています;

Speech-to-Text: 音声のテキスト化(文字起こし)

Web API と SDK が用意されており、継続的な(15秒以上~)の音声文字起こしは SDK を利用する必要があるなど、少々利用方法が異なります。

標準の Speech-to-Text 機能はカスタマイズすることが可能です。
固有名詞やドメイン特有の用語の登録を行う、発音やイントネーションの修整をテキストと音声データセットで学習させるなど、複数の方法が用意されています。

https://docs.microsoft.com/ja-jp/azure/cognitive-services/speech-service/how-to-custom-speech-train-model#use-training-to-resolve-accuracy-issues

音声をテキスト化する、いわゆる “文字起こし” に加えて、複数人の会話を聞き分けて発言者情報も付加する “会話起こし” の機能が追加されています。(※会話起こしは2019年7月現在 en-US (英語), zh-CN (中国語) のみの対応)

大量の音声データをバッチ処理したい場合などは、専用の Batch Transcription API が用意されています。

Text-to-Speech: テキストの音声化(読み上げ)

これまでの Standard Text to Speech に加えて、DNN (Deep Neural Network) によるより自然な Neural Text to Speech が提供されています。

Speech-to-Text と同様に、Text-to-Speech も文章と音声ファイルをセットで学習されることにより、カスタマイズすることが可能です。(Custom Voice)

Speech Translation: 音声翻訳

音声を直接翻訳して音声出力するサービスです。テキストからテキストへの翻訳機能は “テキスト翻訳” と呼ばれ、Cognitive Services では Text Translation という名称でサービス提供されています。

Speech-to-Text & Text-to-Speech のコンテナー対応

エッジコンピューティング対応として、デバイス内で Speech Service の機能を利用したい場合、Docker コンテナーとしてデバイス内に配置することで (インターネット接続なしで) 利用することができます。

Speech Service 活用例 : Immersive Reader

Cognitive Services Immersive Reader というサービスで、読み上げや翻訳の機能を容易に提供するサービスを提供しています。Microsoft OneNote の Web サイトで Immersive Reader をブラウザーから試用できます。

Speech Service サンプルアプリ (C#, JavaScript)

音声の入力または出力があるため、Web API アクセスだけでは今一つ分かりにくいかと思いますので、是非サンプルコードにて動作を確認してください。
https://github.com/ayako/CogServicesSpeechSamples_201907

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です