
AppleはiOS 11で新しいSiriの音声を導入しますが、女性の声は素晴らしいですね。昨晩まで男性の声を使っていたのですが、女性の声に戻すことにしました。AppleがiOS 11のSiriに新しい声優を起用していることに気付きましたが、それだけではありません。
Siriは、発音が変わっただけでなく、より賢くなったようです。彼女の脳にどのような改良が加えられたのか知りたかったのです。Siriチームが書いた論文で、その点について触れられているのを見つけました。そこで分かったことをご紹介します。
音声ディープラーニング
では、音声にディープラーニングを使うとはどういうことでしょうか?Appleの新しい機械学習ジャーナルで、Siriチームがその実現方法について解説しています。人間の音声を人工的に生成する音声合成には、基本的に2つの技術が用いられています。
- 連結型合成:十分な数の音声録音を入力すると、最高品質の出力が得られます。声優を使用します。
- パラメトリック合成:統計を用いて人間の声そのものを再現するモデルベースのアプローチ。人工知能を活用していますが、人間の声のモデルを出発点としています。

連結型合成は、高品質の録音を入力すれば高品質の音声が得られるため、より広く使用されています。パラメトリック合成は「非常に明瞭で流暢な音声」を生成しますが、品質は低くなります。
Appleは基本的に、ディープ・ミクスチャー・デンシティ・ネットワーク(MDN)と呼ばれる手法を用いて、これら2つをハイブリッド合成システムに統合しています。これは、隠れマルコフモデル(HMM)と呼ばれる従来のアプローチとは異なります。つまり、より優れたアルゴリズムです。
研究チームは、48kHzでサンプリングされた20時間以上の高品質音声録音を用いてニューラルネットワークを学習させました。音声圧縮技術の進歩と、この高いサンプリングレート(48kHzに対して22kHz)により、Siriの音声はより自然なものになりました。
納屋の扉は常にしっかりと閉めましょう
Appleが発行した機械学習ジャーナルでは、iOS 9、iOS 10、そしてiOS 11のSiriが読み上げるサンプルテキストを聞くことができます。iOS 9と10では音声はまずまずですが、細かいグリッチ音に基づいてコンピューターで生成されたものであることは依然として分かります。しかし、iOS 11のSiriは、マイクに向かって話している本物の人間のように聞こえます。しかも、彼女は新しい声優です。
次は何?
10年を経て、Siriはついに人間のような音声を実現しました。では、次はどうなるのでしょうか?人間の見た目はどうでしょうか?デジタルアシスタントに視覚的な要素を持たせるべきでしょうか、それとも音声だけにすべきでしょうか?それは今後10年間、じっくり考えなければならない課題です。それまでの間は、Siriたんが待っています。そう、日本では既にSiriを擬人化したアニメキャラクターが登場しており、彼女の歌声を聞くことができます。
注目の画像にアニメキャラクターが写っていますね。妙にセクシーなので、ほとんどの人には魅力的ではないかもしれませんが、Appleが公式に作ったSiriが出てくるとしたら面白いですね。