SAITO
もってけドロボー!
斉藤由多加の「頭のなか」。

第5回 音声認識のどこがおもしろいか
    音声認識とゲームの関係


「音声認識」って技術があります。
「ばか」というと、それをプログラムが認識し
「なんだと!?」とキャラクターが反応する、
それが音声認識です。
今回の「シーマン2」もこの技術をふんだんに使っています。
なぜこんな技術をいつもゲームに使うんだ!?、
という話を今回はします。

わからないから面白いこと

音声認識というのは、つまるところ、
マウスでメニューを選択するのとおなじことをしています。
カツゼツがわるいと認識しないのも音声認識の特徴です。
だったら、メニューにしたほうが正確でいいじゃないか?
という疑問をいだく人もいるのではないでしょうか?
ええ、たしかに「右へいけ」、「左へいけ」という
指示であれば間違えなくそうです。
ですが、彼女のお父様から
「おまえ里美のこと、どう思ってんだ!?
 まさか、ただの遊びじゃないだろうな!?」
なんて質問をされたとき、人はとっさに
「どう答えようか?」と考えるものです。
そして、それが会話のおもしろさ、です。
「どう答えたらお父さんは怒らずに
 納得してもらえるだろうか?」
その頭の中が一覧で表示されたら面白くもなんともない。
わからないからおもしろい‥‥
それが音声認識のおもしろさ、です。

発話という技術

今回のシーマンは、頭がよくなっていまして、
知人に「里美」という人がいると、
「さとみ」という音を覚えて認識します。
それを受けて「おまえ、里美と、昨日、
初めて、エッチしたの??」と発話するわけです。
しかし、このままでは、この質問が果たして
何を聞いているのか、よくわかりません。
人は、聞きたいことを、実は、
イントネーション(メロディー)で理解しています。
このイントネーションこそが会話にあって
文章にはない重要な情報です。
「昨日?」が疑問形のイントネーションになっていたら、
「いつ」を聞いている質問となります。
ですから、回答は、「そう」とか、
「先週」とか「いいえ」とか、になります。
ところが、「おまえ?」が疑問形の
イントネーションの場合だと、
「俺じゃない」とか、「斉藤」とか、
別の人の名前が回答になってくる。
同様に、「里美と?」や「エッチ?」が疑問形であれば‥‥
と頭の中で音を鳴らしてください。
意味がぜんぜんかわってくる。
この理屈を応用して、文章を自然に、
かつダイナミックに組み上げて発話させる。
そういう研究(?)と録音を
この7年間、開発チームはしてきました‥‥。

実は、世界で初めて告白することがあります。
それは、シーマンの声というのは、
僕の声だ、ということです。
十数年前の、最初の試作品を自分の声で演じた
実験の流れからそのまま今に至ります。

声の辞書という作業

人面魚の頃からずっと僕が声優をしていたので、
うんざりするほどの分量の録音をしてきた。
ですがそのせいで、名詞が6つのニュアンスパターンで、
およその文章が自然に生成できることが
自分の耳と口を通してわかってきた。
それからの3年でそれらが、
(ちょうどエスキモーの「雪」を表す言葉が
 たくさんあるのと同じように)、
8で日本語のニュアンスが表現できることが
なんとなくわかってきた。
いまは11まで分化されてきています。

シーマン2とそのAI発話のための録音時間は
およそ800時間を越えました。
制作者らが自らスタジオに入って
この手の辞書作成のための声優をやる、というのは、
集中力の面でも体力の面でも、
けっこうな負担が強いられる。
ですが、会話というのは文字では表現不可能な要素、
いわば“メロディー”がとても重要な役割を持っていて、
そのメロディーを変えると
意味をコントロールできるという発見は、
自分で声を出しているうちにわかってきたことでした。
シーマンが体言止めを多用しているのも、
「てにをは」や「です」などの
助詞を使わないようにしているのもこれが理由です。

「シーマンの日本語」の記述

普段の会議で話している通常の日本語と区別して、
「シーマン語では」と明言しないと
会議も混乱するわけで、
しかも、「かぎかっこ」が、日常会話ではつけられない。
音符のような記述体系がまったくない中での研究は、
ニュアンスを書き留めることが出来ない。
だから名前をつけて、メンバーに説明して、
すこしずつ、メロディーを覚えてもらいながら
文法をつくってゆく、それはそれは大変な作業でした。

シーマン2の完成後も、これら数十万に及ぶ
「声の辞書」と「オリジナル文法」
そして「テンプレート」とよばれる変形土台によって、
いまでは、基本となる文章のセリフを、疑問形にしたり、
省略形、驚嘆系にする、
といった「セリフのニュアンス変換」も
機械的におこなえるところまで
実験はようやくたどり着きました。
人工知能(正確には人工無能といいます)を
実現させるには、「まず声のしくみから」、
という予期せぬアキレスの踵を乗り越えるために
8年かかってしまった、といえなくもありません。
その間社員の退職や転職という、
乗り越えなければならない大きなダメージも体験しました。
今振り返ると、助成金も研究費もない零細スタジオで
自転車操業しながら、
途方もない困難にチャレンジしてしまった
という気がしてます。

もし今回のように人口発話のしくみを
説明する必要がなければ、
自分が声優をやっている、ということを
明かすことはなかったと思います。
いままで秘密にしてきたのも、
ユーザーががっかりすると思ったからで‥‥。
いや、8年間も秘密を通してきたので、
今後もずっとしらばくれている予定ですけれど‥‥。

(つづく)


斉藤由多加さんの個人Blogはこちらです。

斉藤由多加さんへの激励や感想などは、
メールの表題に「齋藤由多加さんへ」と書いて、
postman@1101.comに送ってください。

2007-09-25-TUE

BACK
戻る