NEC 共通基盤ソフトウェア研究所 情報セマンティクステクノロジーグループの近藤玲史主任研究員は、第27回 日本ロボット学会学術講演会にて「次世代ロボット知能化技術開発プロジェクト」(NEDO)で開発中の「仕草合成RTコンポーネント(RTC)」を紹介。音声合成RTCとの連携(図はイメージ)により、発話音声に対し身振りや仕草を適切なタイミングと単位で合成する機能の開発に取り組んでいることを報告した。今後、同社のパーソナルロボット「PaPeRo(パペロ)」に実装し、開発したRTCの機能および円滑な対話が行えるかどうかなどを検証する。
開発した仕草合成RTCは、発話音声の進捗に合わせて時間配分を調整しつつ同期をとる知能化モジュール。ロボットが発話する前に、音声合成RTCから通知された発話テキストの解析結果と、その発話に要する時間情報を受け取り、それをもとに具体的な動作(シーケンス)を生成する。例えば、「おやすみなさい」と発話する際、「その前に、うなずく仕草を開始する」という記述をしておけば、その動作を生成して発話と同期して実行する。
また、音声合成RTCは発話の途中でポーズ(無音声)をとるといった特徴なども、それに到達する前に仕草合成RTCに通知する。ゆえに音声発話を開始した後に、その進捗に沿って身振りや仕草を実行することができる。
このような発話音声と同期しながらの身振りや仕草の実行は、これらの時刻の関係を考慮しながらシナリオを開発しなければならない。容易な作業ではないため時間もコストも要する。このようなRTCが用意されることにより、これらの大幅な低減が期待される。今後、PaPeRoに実装することにより、これらのRTCの有効性を検証する。
ただしPaPeRoでは、例えば、うなずく仕草を実行する場合、首部をピッチ軸(1軸)のみに動かせばよいが、ヒューマノイドでは複数の軸を動かす必要がある。仕草合成RTCに実装したロボットの軸構成や動作内容などを通知するようなRTCが別途、必要になる可能性もある。「現在はPaPeRoを用いて検証する段階であり、まだ検討できていない」(近藤主任研究員)とのことで、検証を通じて必要な検討課題を抽出していく。
NECでは、そのほか自然なやり取りを実現するために、「対話読み上げ音声」により音声合成データベース(DB)を構築して音声合成RTCを構成するという工夫も行っている。
通常、与えられたテキストで音声を生成・出力するテキスト音声合成技術では、別途用意したニュースなどの原稿を、固い発話スタイルで読み上げた音声を録音して用いている。おもにアナウンスやメールの読み上げに利用されるからだが、知能ロボットに適した発話スタイルとは言い難い。
対話読み上げ音声は、人同士の対話テキストのみを抽出し再度、そのテキストを読み上げた音声を収集したもので、その内容や表現には人同士の対話を利用しつつ、不自然ではない範囲で単純化している。具体的には、2名のアナウンサーにアドリブを交えながら、あるお題について対話をしてもらい、このときの対話内容を正解表記に統一したうえでテキスト化。後日、同一話者にこれを読み上げてもらい、そのときに録音したものを音声合成用DBに収録している。2段階の方法で音声を収録している。
少数による予備調査ではあるが、この対話読み上げ音声をもとにした音声合成は、従来のテキスト音声合成技術と比較して『自然性が高い』という評価を得ているという。
■関連サイト
もっともっとアメニティ
音声認識って、どれぐらい認識されているの? - 「音声技術のアメニティ」第1回目
http://robonable.typepad.jp/amenity/2007/06/post_c1ae.html
音声技術は、どこまで浸透しているの、使えるの?-「音声技術のアメニティ」第2回目
http://robonable.typepad.jp/amenity/2007/06/2_ddd8.html
音声技術は、ロボット関連技術のキードライバーか?「音声技術のアメニティ」第3回目
http://robonable.typepad.jp/amenity/2007/08/3_e16f.html


