【音声合成ソフト】ちゃんと使えるの?−実際に試して検証してみた

話した音声を取り込んで文字起こしをしてくれるソフトアプリはたくさんあるのですが、入力した文字を読み上げてくれる「音声合成ソフト」はそれほど多くありません。需要の問題もあってか、ほとんどは企業向けカーナビ音声ゲーム内音声、そして一番身近なものとしてはスマートスピーカースマホバーチャルアシスタントの音声など、実は結構いろいろな分野で活用されています。この記事では個人で購入できる音声合成ソフトが実際にどれくらい使えるのかを検証していきます。

音声合成って?

「音声合成」というのは人間の話し声を人工的に作りだすことで、それによって出来上がったものが「合成音声」と呼ばれています。

機械的な装置を用いた簡単な音声を発生できる物はすでに240年ほど前には開発が行われていて、コンピューターを用いたものは40年ほど前に登場。当初はまさにアンドロイドが話しているようなものだったのが、ここ最近は人間と見分けがつかないほどにまで後術が発達し、声優の声を用いた音声合成ソフトなども発売されています。

TVでも積極利用

合成音声のクオリティが高くなったことは様々な分野で恩恵をもたらしており、特にテレビの現場でも積極的に活用され始めています。

代表的なのは「モヤモヤさまぁ~ず2」で、番組中のナレーションはHOYA株式会社(旧社名:ペンタックス)の「ReadSpeaker」の音声ライブラリ「SHOW」が歴代変わらず使い続けられており、「日テレNEWS24」「the SOCIAL」というコーナーでも株式会社エーアイの「AITalk4声の職人」が使用されるなど、緊急性を求められる報道番組などに使われたり、さらに緊急性の高い緊急速報や防災無線なども合成音声ソフトが活用され、目の不自由な人にも早急な発信ができるよう技術が活用されています。

かんたん!AITalk 3

今回この記事で検証していくのは、先程もご紹介した株式会社エーアイが個人ユース向けに販売しているソフト「かんたん!AITalk 3」

このソフトは企業向けへの技術提供で実績のある音声合成ソフトを個人利用用途に低価格かつ使いやすくしたソフトで、お値段もだいたい15,000円位で販売されています。

販売はかなり前にされたのですが、そもそもクオリティが高いので今でもバージョン3のまま販売が継続されています。ちなみに前回のバージョン3からは「抑揚の調節」「記号挿入によるポーズ機能」「Word文章の読み込み」そして書き出し音声が「16kHz/16bit」から「22kHz/16bit」とより高音質化され、クオリティの高い作品づくりが可能になりました。

5人の話者を内蔵

話し声や話し方などがそれぞれ違ったライブラリーのことを「話者」と呼んでいるのですが、5人の話者ライブラリーを内蔵。それぞれの特徴は次の通りです。

のぞみ

カーナビで聞けるような、聞きやすくて適度なスピード感の女性話者。年齢にして25歳前後という感じです。

かほ

明瞭で丁寧な喋り方の女性話者で「のぞみ」よりももう少し年齢が上の感じ。

せいじ

ニュースなどでも対応できそうな男性話者。防災無線などでも聞き覚えのある声質です。

あんず

小学校1年生くらいのたどたどしい感じの女の子話者。人間と違いたどたどしくても明瞭感はあるので、使い勝手は良さそうです。

ななこ

ドキュメントのナレーションが似合いそうな40代近くといった感じの女性話者。企業用のナレーションに差し支え無さそうです。

画面構成

実際に音声合成をやっていきますが、その前に画面の構成を見ていきましょう。

音声合成ソフトなので難しい操作が多いのかと思いきや、操作画面は驚くほどシンプルで階層構造もありません。

テキストボックス

音声合成で話させたい内容をここに入力します。

最大文字入力数は公表されていないようですが、かなりの長文でも問題なく再生されます。とはいうもののファイルとして扱うのなら適度に細切れでファイルを作るほうが使い勝手は良いです。

話者選択エリア

話者の切り替えを行う一番大事な部分です。

音量、話す速さ、声の高さ、抑揚もここで変更できるので、活用メディアによって適切なボイスへと調整することが可能。

「記号ポーズ」のタブは特定の記号を文中に挿入することにより、それぞれの記号に設定した時間分ポーズさせられる機能で、後ほど説明をしていきます。

単語編集

読み方が違うものを単語登録したり、イントネーション、つまり抑揚の付け方を設定もできる項目。

例えば文章中で「(株)ブログ」と書いてあった場合、人間だと頭の中で「株式会社ブログ」と認識でき、読み上げる時も「かぶしきがいしゃブログ」と読みますが、音声合成ソフトは「かぶブログ」だったり、「かっこ かぶ かっことじるブログ」などと発話してしまうものもあります。そこで辞書登録することにより希望の読み方をさせることが可能になっています。

このソフトにはかなり優秀な日本語解析ソフトが入っているので、こちらが驚くほど間違わずに読み上げてくれるのですが、専門分野になってくるとそうもいかなくなってくると思うので、辞書で育てていくようになります。

またイントネーションが不自然な時もあるので、どうしても気になる場合はここで辞書登録することでイントネーションを整える事ができます。

音声合成を使ってみる

では実際に使っていきます。

やることは簡単で、文章を入力➾話者を選択➾おかしいところがあれば辞書登録➾音声書き出し、これだけで完了です。

文章を入力する

とりあえず桃太郎の始まりの部分を入力してみました。

入力したら「再生」を押すことで合成音声が作成され再生されます。これくらい短文だとすぐですが、長文になると少し変換に時間を要するようになります。

では再生してみましょう。利用している話者は以降すべて「のぞみ」でオプションは標準のままです。

どうでしょう、これだけでも驚くべき結果がでていますよね。「おじいさんは山に芝刈りに」などの文章も、ちゃんと「おじいさんは(わ)」と判別しており、おじいさんは 山に芝刈りに」と間を取っているのも驚きです。

ただ問題のある部分もありました。それが冒頭の「昔々」。読み上げでは「むかしむかし」ではなく、「むかし」と読んでしまっています。面倒なのでここを「むかしむかし」と文字修正しても良いのですが、今後同じ事象が出てくる事もあり得るので辞書をつかって育てます。

単語登録で育てる

単語登録はとっても簡単で「見出し」に元の文章、「よみ」に読ませたい文章を入力します。

イントネーションの修正

入力と同時にイントネーションのグラフが出るので、自然な話し方になるよう●を上下に移動させて修正します。

今回はこういったイントネーションに直してみました。

登録ボタンを押せば反映されるので、先程の文章をもう一度再生してみます。

読み方もイントネーションもキチンとできていることがわかります。

「ポーズ」で間を作る。

読み上げの際、特定の時間、間を取りたい事もあります。通常であれば音声ファイルを区切って2つ作り間を開けて編集するという作業になるのですが、「記号ポーズ」という便利機能で手軽に間を作る事が可能になっています。

それぞれの記号ごとに5つまで希望の時間を設定しておくことができます。今回は「#」に2秒の時間を設定してみます。

ポーズ時間の設定

「#」マークを利用するので□にチェックマークを入れ、2秒なので2,000の数字を入力します。

数字は1,000分の1の単位になっており、最高は5,000の5秒で逆に0.08秒まで間を詰める事も可能。

次に行うのが文章中へのポーズ記号の挿入。

1行目の終わりに「#」を入力して、この場所に2秒の間を置いてみたのがこちらです。

ちゃんと間が作られていることが確認できます。

話し方を変えてみる

話者のオプション設定を変更することで話し方を簡単に変えることができます。基本はそのままでも良いのですが、お年寄りのために声を少し高めにしたり、ゆっくりした話し方にすることもできるし、コミカルな話し方にすることもできます。

和速と高さをマックスまで上げてアニメのまくしたてるシーンのようにしたり。

声の高さはそのままに、ゆっくりスピードにしてみたり。

抑揚をたくさん付けた話し方にもできます。

少ないオプションですが、作りたい作品によって簡単に変化させられるのは助かります。


音声合成ソフトは特定の人にしか活用価値が無いように思えますが、例えば絵本の内容を入力すれば子ども向けの読み聞かせ音声を作ることもできるし、目が不自由なひとのためにWebページやニュースなどを音声ファイルにして聞かせてあげるような福祉分野での活用、自作の旅行ビデオなどにナレーションを付けてより楽しくクリエイティブな作品に仕上げたり、アイデア次第で活用法は無限に広がります。

お家時間も増えているはずですし、これを使って何か作品作りをしてみるのもオススメですよ。