Google Cloudの合成音声(Text-to-Speech)とは
合成音声サービスというと、何を思い浮かべますか。
一番身近なところにあるのは、GoogleアシスタントやSiriではないでしょうか。
アシスタントと会話ができるのは、スマートフォンに合成音声が搭載されているからです。
合成音声サービスは日々進化しており、ラジオやニュースサイトで活用されていることもあります。
最近では、嵐の「A・RA・SHI」の歌詞を変えて歌ってもらえる「A・NA・TA for DREAM」も話題になりました*1*2。
こちらにも合成音声の技術が使われています。
そんな身近になりつつ音声合成技術の中でも、Google Cloudが提供している合成音声サービス(Text-to-Speech)を紹介します。
この記事を読むと以下の3つのことがわかります
①Google Cloudの音声合成(TTS)の概要 ②Google Cloudの音声合成の機能や料金 ③Google Cloud以外の合成音声サービス |
<h2>Google Cloudの合成音声(Text-to-Speech)とは *3~*9</h2>
はじめに、Google Cloudの合成音声サービスの概要を紹介します。
<h3>GoogleのAIテクノロジーを搭載した音声</h3>
Google Cloudの合成音声サービスには、GoogleのAIテクノロジーが搭載されています。
より自然な音声を目指して、日々改善が進められています。
より人間に近い発音ができるよう、同じAlphabetグループのDeepMindで研究された成果が生かされているのが特徴です。
DeepMindでは、実際のオーディオ波形を学習して、より自然な音声を作り出すモデルをつくりあげました。
それが、WavesNetです。
WavesNetでは、これまでの音声合成技術よりも50%ほど品質が向上し、より人間らしい音声になっています。
出典:DeepMind
実際に調査対象となったのは、アメリカ英語と北京語です。
WavesNetは、ほかの技術と比べてより人間に近い品質であることがわかるでしょう。
サイト上では実際に音声を比較できます。
3つの音声を聞いてみると、WavesNetの自然さが際立っていることがわかるはずです。
気になる方は、以下のサイトから音声を聞いてみてください。
記事内では、クラシックにおいてもWavesNetを活用してみた例が掲載されています。
実際に聞いてみると、機械が作ったとは思えないフレーズが楽しめるでしょう。
参考:WaveNet: A generative model for raw audio
<h3>40種類以上の言語や方言・220種類以上の音声ラインナップ</h3>
Google Cloudの音声合成では、40種類以上の言語がサポートされています。
言語によっては、音声に応じていくつかの種類が用意されているため、合計で220種類以上の合成音声が用意されていることになります。
日本語は8つの中から好みのものを使用でき、事前に音声の試聴も可能です。
合成音声の中には、WavesNetの音声もあり、より自然な発話のものもあります。
<h3>独自の音声も使用可能</h3>
Googleが用意した音声のほか、独自の音声を利用した合成音声も利用可能です。
スタジオ等で録音した音声を、Googleがトレーニングデータとして利用することで、オリジナルな合成音声を作成します。
記事執筆現在(2020/11/05)、独自の音声を利用するサービスはベータ版です。
なお、独自の音声を使う場合には、Googleに申請が必要です。
その上、Googleが要求した条件を満たす音声が必要となる点にも注意してください。
スタジオ品質の音声であることや、Googleから送られてくる録音スクリプトを利用することが必須です。
もしもデータが条件を満たしていない場合には、再度録音が必要になる可能性もあります。
<h2>Google Cloudの合成音声の機能・料金*3~11*</h2>
続いて、Google Cloud合成音声の機能や料金面を紹介します。
<h3>機能</h3>
機能は主に5つあります。
<h4>テキスト・SSMLを使用した読み上げ</h4>
音声を読み上げさせるためには、テキストまたはSSMLが必要です。
気軽に利用したい場合には、テキストを読み上げさせるのがよいでしょう。
短い読み上げであれば、テキストを読み上げさせるのでも問題はないはずです。
しかし、文が多くなったり、一文が長い場合にはSSMLを使用するのがおすすめです。
SSMLは、音声言語専用のマークアップ言語です。
Google Cloudの合成音声でもSSMLがサポートされているため、発話をより細かく指定していく場合には利用するとよいでしょう。
SSMLの例として、<break>を紹介します。
こちらのタグを使うと、単語や文の間に間をもたせることが可能です。
ステップごとに説明を行う際などに活用できるタグといえます。
timeを加えると時間指定が可能です。
<speak>まずは、左右をよく確認しましょう。<break time=”200ms”/>左右が確認できたら、横断歩道をわたります。</speak> |
<h4>声の高さや発話速度の調整</h4>
合成音声は男性と女性が用意されています。
それぞれで声の高さや発話の速度を変更できるため、より理想に近い音声が利用できるでしょう。
<h4>ボリュームのコントロール</h4>
合成音声は、ボリュームを変更できます。
そのため、機器に応じた音量で利用することも可能です。
<h4>多様な音声ファイル形式が利用可能</h4>
音声は、さまざまな形式で保存可能です。
MP3・Linear16・Ogg Opusなど多様な形式の中から、利用しやすい形式で保存できます。
<h4>環境に応じた音声の最適化</h4>
利用する環境に合わせて、音声を最適化してくれます。
電話回線で使用する場合、ヘッドフォンで使用する場合などさまざまな環境に対応可能です。
<h3>料金</h3>
料金は、無料枠を超えた部分からかかります。
なお、SSMLなどのタグも文字数としてカウントされる店には注意が必要です。
無料枠は、WavesNetの場合100万文字までで、それ以外の場合には400万文字まで無料です。
どちらも月間の文字数であり、料金がかかることは少ないかもしれません。
こまかな料金については、下記ページよりご覧ください。
参考:料金 | Cloud Text-to-Speech | Google Cloud
<h2>Google以外の合成音声サービス*12~*16</h2>
Google以外にも、合成音声の読み上げサービスを提供している会社は多数あります。
以下に5つのサービスと会社名をまとめました。
・Amazon Polly【Amazon】 ・AITalk【エーアイ】 ・ReadSpeaker(旧:VoiceText)【HOYA】 ・AquesTalk【アクエスト】 ・Open JTalk【名古屋工業大学 徳田・南角・橋本研究室】 |
◆まとめ
今回は、Google Cloudの合成音声について紹介しました。
Googleのものは無料で使える枠も大きいため、試しに利用してみるのもおすすめです。
また、1〜2文程度であれば、サイト上で登録なしに試せます。
興味のある方は、好きな文章を打ち込んで音声を確認してみてください。
建設・土木業界向け 5分でわかるCAD・BIM・CIMの ホワイトペーパー配布中!
CAD・BIM・CIMの
❶データ活用方法
❷主要ソフトウェア
❸カスタマイズ
❹プログラミング
についてまとめたホワイトペーパーを配布中
デジタルツインと i-Constructionについての ホワイトペーパー配布中!
❶デジタルツインの定義
❷デジタルツインが建設業界にもたらすもの
❸i-Constructionの概要
❹i-Constructionのトップランナー施策
▼キャパの公式Twitter・FacebookではITに関する情報を随時更新しています!
◆参考URL
*1 HELLO NEW DREAM. PROJECT on Twitter
*2 A・NA・TA for DREAM
*3 Text-to-Speech:A・NA・TA for DREAM Lifelike Speech Synthesis
*4 Supported voices and languages | Cloud Text-to-Speech Documentation
*5 WaveNet: A generative model for raw audio
*6 Custom Voice (Beta) Overview
*7 Cloud Text-to-Speech basics | Cloud Text-to-Speech Documentation
*8 WAVENET: A GENERATIVE MODEL FOR RAW AUDIO
*9 Pricing | Cloud Text-to-Speech
*10 Speech Synthesis Markup Language (SSML)
*11 Speech Synthesis Markup Language (SSML) Version 1.1
*12 Amazon Polly(深層学習を使用したテキスト読み上げサービス)
*13 音声合成ソフト、読み上げ、人工・電子音声なら【株式会社 エーアイ(AI)】
*14 音声合成ソフト, Web読み上げのReadSpeaker(旧VoiceText)
*15 株式会社アクエスト: 超小型・最軽量 音声合成エンジン
*16 Open JTalk – HMM-based Text-to-Speech System