ＣＧＭの現在と未来に行ってきたよ！前編：剣持秀紀さん「歌声合成の過去、現在、未来」

http://www.itmedia.co.jp/news/articles/1003/11/news053.html

http://www.itmedia.co.jp/news/articles/1003/11/news078.html

さて、具体的な講演内容については、IT Mediaでとても良くまとめられているので上記の記事を参照して下さい。というかプロが書いてるんだから当然っちゃ当然ですが。

さて、結構濃密なお話だったので何回かに分けることにします。今回は一番始め剣持秀紀さん（YAMAHA）のお話を紹介していきます。

剣持さんは僕なんかは普段あまりコミットしないvocaloidの技術的側面を分かりやすく解説していただきました。歌声合成の技術の歴史がまさか半世紀も前に遡るとは思っていませんでした。かつては完全な合成音タイプ（機械音）が主流だったようですが、終着点が人間の声である以上、やはり機械音には限界があり、現在、そして未来はvocaloidなどにみられるサンプリング型の手法が主流となっていくだろうとのことでした。

また、ＵＧＣの未来を考えるにあたり、剣持さんは三つの要素の拡大が必要だそうです。

まず、「声のバリエーションの拡大」。

現在、いわゆるＵＧＣ型の音楽と言えばJ-POPが主流ですが、これからは、もっと幅広い音楽ジャンルでも歌声合成の技術を活かしたいそうです。確かに私見で申し訳ないのですが、初音ミクの曲調ってなんか似たり寄ったりだったりするんですよねぇ。だからなかなかお気に入りの曲を探すのが難しい。事実、これが参入障壁になってたりもするのでは？

加えて、言語バリエーションの拡大だそうです。ご存じ初音ミクは日本語しか喋られません。巡音ルカは英語もレパートリーにありますが、まだ改良が必要のように思われますし。そうそう、会場で、剣持さんが本邦初公開の音声を聞かせてくれたのですが、それはスペイン語の歌声で、ありきたりの反応かもしれませんが、本当に人間が歌っているようでした。正直初音ミクの日本語の歌より全然自然な歌声でした。なんだろう。言語によって合成しやすいとかしにくいとかというのがあるのかなぁ。それと、歌声から歌声以外への応用も研究中だそうです。普通の発話ではなく、歌声と発話の中間……例えば焼き芋屋さんの『い〜しぃや〜きぃもぉ〜』といったかけ声のような、絶対音感の人が耳にすれば譜面に起こせてしまうような類の声なら、発話よりも簡単に合成できるのではないか、ということでした。

まぁ、確かに歌声以外の合声技術開発は自然な流れですよねぇ。だって、僕たちの知らない間にロボットの開発もめちゃくちゃ発展しているわけですし、いざアトムが出来上がった！っていうときにちゃんと喋るためのソフトが無いなんてこともあり得ますからね。テレビで介護ロボットなんかをみていると、やっぱり発話は拙い。別にゆっくりボイスでもいいのかもしれないけど、日本語は同音異語が多いし、プログラムに文脈を判断させて正しい発音をさせるっていう技術も必要になってくると思う。むしろロボット開発より、合声ソフト開発の方が急務だったりして。これから大学の工学部でもそういう分野が主流になってきたりしてね。

濱野さんも仰っていましたけど、声を張るのが苦手な人のために代弁をソフトに頼むなんて未来も面白いかもしれません。「プレゼン能力？なにそれおいしいの？」的な。

後はまぁ声優のオルタナティブですよね。初音ミクがここまで流行った理由の一つに、自分の作った歌を従順に歌って貰えるっていう個人主義（もしくはただ単に友達が少ない）があるわけでしょ。竜騎士０７なんかがこれからのクリエイターのロールモデルというかケーススタディになるのであれば、自らの欲望赴くままに女の子に喋らせられるだなんて、3次元に見切りをつけてらっしゃる紳士諸賢に歓迎されないわけ無いじゃないですか。

閑話休題。

以前友達が『アニメは、そのキャラクターが喋っているように見えない。どうしても声優の人となりがちらついて鬱陶しい』なんてアニメファンの人から糾弾されそうなことを宣っていたのですが、まぁ確かに一理あるかなと。たしかに、見た目と設定が違うだけで声は一緒って変な感じですよねぇ。それでも違和感を覚えにくいのは、キャラクターというものが見た目と設定に帰依しているからなんでしょうか。勿論声優さん達の演技力の賜とも言えます。この間友達とカラオケに行ってアフレコなるものをやってみましたが、まぁ酷い酷い。本当に今まで馬鹿にしてきた人達に謝りたくなりましたよ。

そういう意味でも、自分の望んだ声色、声質で自分の望んだ事を喋ってくれる存在はニーズがあるんだろうなぁ。

ただ、僕はそういう流れは好きではありませんけどね。
なんでも楽をしようとしたり、独りよがりになっていたら本当に良いコンテンツなんか作れるわけねーじゃん、というのが僕の意見。

次に「利用場面の拡大」。

今はニコニコ動画、ピアプロでのニッチ（オタク層）向けの利用が主流ですが、将来は、オーケストラやライブなどでの利用が増えてもいいんじゃないか、ということでした。

んー…。それはどうかなぁ…。
既存の音楽ジャンルに対応するということではなくて、飽くまでライブでvocaloidを使用するというのはどうにも些末な気がしてならない。ライブの一番の価値はスピーカー越しにしか聴いたことのない音楽、声楽を直に聴くことが出来るという点にあるわけですよね。普通のライブに行って、実際は録音テープに口パクだったらなんか損した気分になるように、わざわざ出向いて打ち込みの音楽を聴くって、なんか意味が薄いような気がするのですが。

それだったら、歌い手（人間）の声を、初音ミク調に変換する技術の方が面白い気がする。初音ミクというか、つまりは変声技術ですよね。またまたカラオケの話なのですが、その機種にたまたま変声機能がついていて、早々に飽きてしまった僕たちは途中から延々それで遊んでいました。そこで感じたことは、『やっぱり異性の声って憧れるよなぁ』ということでした。男なら女声で、女なら男声で歌ってみたいと思う事は誰しもあるはず。だって、普通の声域だったら異性の歌とか原曲のキーで歌えるはずないですよ。女性ボーカル好きな僕としては大いにカラオケの興が削がれてます。

だから、次世代vocaloidは自分の声を誰かの声に似せることが出来るソフトウェアがいいと思います！

ただ、似せられる方はたまったもんじゃないけどね…。

最後に「ユーザー層の拡大」。

初音ミクが大ヒットしたとはいえ、それはニッチなＤＴＭ市場でのことであって、既存の音楽シーンを震撼させる程のヒットではなかったというのが本当のところであり、今後は歌声合成の普遍化を目指したい、そうです。

初音ミク騒動のとき、流行にのって買ってみたはいいけど、普通に難しくて放置、という例が結構あったみたいですしね。立ち返れば初音ミクって打ち込みソフトですよ。あのツーテールの可愛い女の子なんてエディット画面のどこにも出てこないんですよ。ミク愛なんかよりもまず第一に、作曲能力がなければ彼女は振り向いてくれません。そう言う意味で彼女は軽い女の子ではないのです。

『わたし、音楽が出来ないおとこのひととはおつきあいできませんっ！』

ってね。ざまぁｗ

さて、下らない話はさておき、これはこれからのＵＧＣムーブメントに大きく関わってくる問題だといえるでしょう。何かの記事で触れましたが、ＵＧＣの、作り手に対しての制作インセンティブとして、「素人でも簡単に作れる」というのがあります。いくらＩＴの発展でテクノロジカル・ディバイドが是正されたとは言え、ずぶの素人がコンテンツを制作できる程甘くはありません。ほんの少しハードルが下がっただけにすぎません。売り手としては一時的なブームで自社商品の売り上げが伸びれば御の字なのかもしれませんが、WEB3.0的マーケティングを見据えれば、そんな牧歌的な体制ではいられないと思います。発売後もまだまだやることはあるのです。これについては次回詳しくご紹介させていただきます。

つまり、ここで重要なのは制作過程のファシリテーションです。
参入障壁を下げることによってさらなるユーザーを獲得するというのは常套手段ではありますが、制作を不特定多数になげうつＵＧＣマーケティングにおいては重要なポイントです。こういう技術的な話には僕は突っ込めないので、僕でも作られるようなソフトウェアを開発して下さいとお願いするばかりです。

ただ、まぁこれもよく言われることですが、技術的ハードルによる参入障壁がコンテンツのクオリティを保証しているということも否定できません。初音ミク文化の隆盛もそういう不文律の下に発展したのかもしれません。でも必ずしもそうとは言えない気がします。例えば絵画。あれって、究極的には鉛筆と紙だけで表現されているという、ＶＦＸ全盛のハリウッドに比べれば本当に簡素なアートですよね。でも、だからといって下等な表現手法かと言えば、全くそんなことはなくて、むしろ一本の鉛筆の方がコンピューターソフトよりも可能性を秘めているといっても過言ではありません。だから、玉石混淆を厭わないのであれば、ハードルの撤去を断行しても構わないと思います。

さて、次回はクリプトンフィーチャーメディアの伊藤博之さんのお話を個人的な感想と共にお送りしたいと思います。ではでは。