無償の音声合成・歌声合成ソフト「CeVIO Creative Studio FREE」
無償の音声合成・歌声合成ソフト「CeVIO Creative Studio FREE」が公開された。簡単な操作でキャラのおしゃべりを制作できる期待の新星、その開発の経緯やこれからを教えてもらった。
等身大の3Dキャラクターが感情表現豊かに客と会話するデジタルサイネージが東京のアニメイト秋葉原で稼働している。キャラクターの名前は「さとうささら」。「CeVIO Vision」というシステムを使っている。
4月26日午後6時には無償の音声合成・歌声合成アプリケーション「CeVIO Creative Studio FREE」も公開された。このCeVIOというプロジェクト、素性がただものではないことは分かるのだが、どこが主体でやっているのかは不明だった。ようやくその実体が判明した。
稼働しているシステムをアニメイト秋葉原まで見に行ってみたが、MMDAgentを使った双方向音声デジタルサイネージである名古屋工業大学のバーチャル案内嬢「メイちゃん」と構成が似ている。真相を問い合わせみたが、もうちょっと待ってくれと言われて3カ月。ようやく取材が実現したのがつい先日のことだ。
話をうかがったのは、名古屋工業大学大学院の徳田恵一教授と大浦圭一郎特任助教。音声合成・歌声合成の権威である。徳田教授が率いるチームでは、HMM(隠れマルコフモデル)方式による音声合成システムを開発、オープンソース化して多くの企業などで使われているほか、無調教でリアルな歌声を作り出す歌唱合成サービスのSinsy、MikuMikuDance(MMD)モデルとモーションを使い人間と音声で会話できるMMDAgentなど、数多くの研究成果を持つ。
「はい、あれはわれわれです。テクノスピーチという、名古屋工業大学の学内ベンチャーを設立し、そこでサポートとライセンシングをやっています」。
名工大の国際音声技術研究所(徳田教授、李晃伸教授、大浦特任助教が中心) は音声に関するさまざまな技術を送り出してきた。オープンソースの音声認識エンジンであるJulius、隠れマルコフモデルによる音声合成システムHTS、それにMMD互換の3Dインタラクションを加えた双方向の音声インタラクションシステムMMDAgent、HTSを歌声合成に進化させ無調教で人間らしい歌声を出せるSinsyなどなど。
これらは主としてオープンソース(BSDライセンス)で公開され、既に多くの企業のシステムやサービス、たとえば、NTTドコモの「しゃべってコンシェル」やAndroid 4.0以降の音声認識・音声合成にはこれらの技術の一部が使われている。
しかし、それでは不十分だと感じた。オープンソースであるがゆえに、自由に使われて、学内で保有している優れたノウハウを付加したりアドバイスすることができない。進化のスピードも期待通りにいかない。「直接製品を届けたい」という気持ちもある。
そのために、主要メンバー3人で2009年11月、「株式会社テクノスピーチ」を設立。これらの技術を商用利用するために必要とされるアドホックの処理、ビジネス上の技術などを提供できるという。サポート、ライセンシングを中心に活動している。音声や歌声のデータベースを作成する作業もここで行う。
パートナー企業も加わった。メイちゃんを名古屋工業大学の正門に設置するのに協力したデジタルサイネージ専門企業ブイシンクと、アニメイトグループの1社、フロンティアワークスだ。さらに数社が協力してCeVIOプロジェクトを動かしている。
その最初の成果物がアニメイト秋葉原店に設置された、メイちゃん以外では初めてのMMDAgentベースのデジタルサイネージ「CeVIO Vision」だ。アニメイト池袋本店に2台目を設置する予定もあるという。
次の展開として4月26日にアプリ「CeVIO Creative Studio FREE」が公開された。これは、音声合成・歌声合成を手軽にできる無料のWindowsアプリケーションだ。Windows 7以降で動作する。
最初のバージョンでは、CeVIO Visionでも使われているキャラクター「さとうささら」のおしゃべりを日本語で入力して作成し、編集できる。元気、怒り、悲しみという3つの感情を始め、さまざまなパラメータを組み合わせて自由におしゃべりを構成することができるのだ。
複数トラックでパラメータを変えれば別人のように表現が変わるので、それらで会話をさせることもできる。いわゆるトークロイド的なことがこの無料アプリで簡単に行えてしまうのだ。FREE版は1プロジェクトで5分間という長さの制限はあるものの、保存もWAVへの書き出し(会話の個別書き出しもできる)が可能。
現時点でできるのはここまで。だが、その先がある。
Sinsyがデスクトップアプリになった
無料版のバージョンアップにより、現在の「トーク」トラックに「ソング」トラックが加わる。これは、楽譜を読み込ませるだけで人間らしくリアルな歌声を聴かせてくれるSinsyをアプリにしたものと言ってもいい。
SinsyはWeb上のサービスで、MusicXMLという歌詞付きの楽譜データを読み込ませると、それをサーバ上で解釈して歌声のWAVデータとして出力してくれるというもの。2009年のクリスマスにニコニコ動画に投稿され、そのリアルな歌声に衝撃が走った。その後、使える歌手を増やし、英語、中国語の歌唱もできるようになるなど着実に進化してきたが、不満もある。ユーザーインタフェースだ。
楽譜を作成するというのはとてもハードルが高い。しかもMusicXMLを作成できるアプリも少ない。MIDIシーケンサーやDAWなどの一般的な音楽アプリのように、ピアノロールと呼ばれる形式で使いたいという要望が強かった。
「CeVIO Creative Studio FREE」のバージョンアップでは、さとうささらの歌声を「ソング」機能として追加する予定だ。音符の音階を決め、長さを調整して、歌詞を入れる。VOCALOIDやUTAUと同じようなユーザーインタフェースで入力できる。Sinsyと違い、その場で音も確認できる。ただし、出て来る音はSinsyと同様に、収録した歌手の歌い方がリアルに反映されたもので、ほとんど切り貼り感がない。これこそがSinsyで使われているHMM方式の特徴でもあるのだ。
もちろん、Sinsyで公開されている歌手の中にさとうささらはいないので、このアプリオリジナルとなる。FREE版で使える歌手はさとうささらだけになるそうだ。
パッケージ販売されるバージョンも開発中だ。こちらには、FREE版にある5分制限がなくなるほか、トーク(おしゃべり)できるキャラクターがもう2人加わる。
また、ソング機能については、さとうささら以外の歌手を追加することが可能になるようだ。Sinsyで既に提供されている数名の歌手を使えるようになると幅が広がる。ブイシンク事業開発本部開発グループリーダーの加藤義弘さんと、フロンティアワークス事業推進チーム係長の中田翔さんによれば、「サードパーティも視野に入れている」ということなので、新規・既存の参入があるかもしれない。その場合は、このCeVIO Creative Studioパッケージ版に追加するという形になりそうだ。
FREE版では歌の細かい調整はできないが、パッケージ版ではビブラートや発声、ポルタメントやピッチなど、微調整が可能な仕組みを取り入れるという。しゃくりのような表現も可能になる。
開発中のパッケージ版を試用させてもらっているのだが、インストールして驚いたのが、これだけリアルな歌い方をわずか30Mバイトに収めていること。VOCALOIDが数百Mバイトから多いときは1Gバイトを超える容量だからびっくりする。マシンスペックとしてはWindows 7以上、Core i以上のプロセッサを要求するが、その上での動作は軽い。iMacでVMWare Fusionを使っても問題なく動くレベルだ。
このCeVIOプロジェクトの最新情報を知りたい方は、ニコニコ超会議の日本マイクロソフトのステージを見に行くといいだろう。