tonkatsuです。あっと言う間に、1ヶ月更新が滞ってしまいました。さて、音声技術シリーズも第3回目の今回が最終回、いよいよ核心に迫ります。
今回も、音声技術のリーディングカンパニーである米Nuance Communications Inc.
(NASDAQ:NUAN)の日本法人、ニュアンスコミュニケーションジャパン株式会社(米国本社NASDAQ: NUAN)の村上さん、平沢さんに、ご自身のロボット観も含め濃い議論を展開いただきました。
ton:いきなり核心の質問ですが、音声技術はロボット関連技術のキードライバーとお考えですか?
村上:音声は、人からの命令や、人への応答に重要なインタフェース機能を担っていますので、その機能が自動化、高度化、インテリジェント化されれば様々な利便性がもたらされます。ヒューマノイドの様な形であるかどうかに関わらず、ロボット関連技術のキードライバーであることは間違い無いと思います。
平沢:弊社にもロボット関連製品への適用についての引合いが増えてきています。
ton:その割には、音声認識に対応したロボット製品が次々と開発されているという勢いを感じないのですが?
村上:そうですね、過剰な期待感が先行してしまう点や、ROI(投資回収率)の良い利用用途が未開拓である点など、音声認識とロボットはある意味似た状況なのかもしれませんね。どちらもお互いにドライブしきれていない感じでしょうか。ただ、最近のメーカの開発動向を見ていますと、そろそろ何か突出した商品の登場をきっかけに、市場がブレイクする兆しを感じます。
平沢:業界関係者の中には、音声認識や音声合成がいまひとつブレイクしないのは、あとは知名度と浸透度の問題なのではないか?と考えている人もいます。現状の技術水準でも「ああ、こう使えば便利なのか」という情報が広まっていないことが要因ではないかという訳です。その意味では、実は90年代の後半に音声認識の浸透度が瞬間的に広まったことがあったのです。日本IBMさんが販売していたディクテーションのパッケージソフトViaVoice(現在はニュアンスから販売)のテレビCMが、タレントの香取信吾さんを起用して大々的に放送された時期がありました。ViaVoiceにせよ、Dragon NaturallySpeaking(ニュアンス製)にせよ、ディクテーションのパッケージソフトはある程度は普及している製品ですが、音声認識による入力のマーケットが立ち上がって軌道に乗るという域にまでは届きませんでした。
最近メディアで注目された製品としては、PSP(R)(プレイステーション・ポータブル)向けのゲームソフト、TALKMANTM(トークマン)があります。これは、音声入力(音声認識)した内容を外国語に翻訳して応答(出力)する「異文化コミュニケーションきっかけツール」 とでも申しましょうか。一時期、大々的にテレビCMが放送されましたのでご存知の方も多いのではないでしょうか。TALKMANなど広い意味では、ロボット翻訳機と言えるかもしれません。この種の製品が増えてくることで、ユーザの音声認識インタフェースの利用ノウハウ(リテラシー)が適応してきて、今後さまざまなロボット関連製品が普及する下地作りになると期待しています。TALKMANのような端末製品を、(翻訳)ロボットと呼ぶのは、本来の「ロボット」の定義から少しはみ出しているかもしれません。でも、最近メディアで目にするお掃除専門ロボットなどのサービスロボットも、既存の製品(掃除機)の発展・進化形と受け止めることもできると同時に、掃除機がロボットになったと受け止めることもできます。どこまでの変化や進歩が「改良」に過ぎず、どの段階からが新たに「ロボット(的)」なのか、定義が難しいですよね?
ton:ご指摘の点は、同感です。この辺りに関して、最近、「次世代ロボットビジネス議論の持つ課題」望まれる明確なロボットの定義 という論文を見つけました。産業界でも、この点は課題となっている模様です。
ton:それでは、最後に総括質問です。近い将来、音声認識技術2.0とも言うべき画期的な新技術の製品化から、市場は本格的な成長軌道に載るのでしょうか?
村上:そうですね、楽観的には、大いにそうあってほしいですね。
但し、どの産業分野でも同じだと思いますが、高度な技術は価格も高価ですので、ビジネスである以上、その適用におけるROIの視点は不可欠です。また、市場を見渡すと、未成熟な製品でも普及しながら、熟成、進化が許容される性格の製品と、製品の完成度の閾値(ユーザの期待値)を越えない限り普及もままならない特質の製品があります。音声技術やロボットは後者の範疇に位置していると思われますので、技術革新が進みさえすればそれに比例して段階的に市場が切り開かれていくと考えるのは安易に過ぎるかもしれません。
また,われわれニュアンスは音声を"認識"したり"合成"したりする部分のテクノロジーを提供しているわけですが、完結したシステム(製品)として見た場合には、音の入出力に関する技術の進歩も、市場の発展にとっては重要だと考えています。例えば骨伝導やノイズキャンセルといった分野の技術が進化することで、騒音の激しい環境下でも利用できる音声インターフェースが登場するかもしれません。
平沢:絶え間ない技術革新が我々音声技術ベンダの責務であることは間違いないですが、何もかもを「人間並み」にすることをゴールに設定して、そこに届かない技術を「未熟だからまだ早い」と拒絶されてしまうのはさびしいのです。音声インタフェースに何をさせたいのか、技術の(段階的)なゴールをどう設定すべきか、より深い議論や分析がなされて技術を提供する側と利用する側との間で共有できると、「できるところから導入していく」サイクルが回ってくるのではないかと期待しています。具体的に言うと、我々人間と同等の機能で人間の代わりを担わせたい「代替指向」の音声インタフェースと、人間にはできない芸当、たとえば、24時間365日稼動とか、大容量データの処理のような「拡張指向」の音声インタフェース、という軸で考えてみるのはどうでしょうか?
今回のインタビューを機会に、私なりに音声インタフェース技術が目指すべきゴールを明確にするための検討課題をまとめてみました。
Q: 音声インタフェースは社会でどんな役割を担うべきなのか?社会のどこでどんな貢献をすべきなのか?
・人間にできることを代行するのが、役立つことなのか(代替指向)
・人間には到底できないことを行うのが、役立つことなのか(拡張指向)
・人間と機械は、何をどう分担すべきなのか?
事例(case)に当てはめてみると、
case1: 音声認識エンジンのオフライン利用
何千、何万の人間同士の対話(通話)データが保存されている場合に、この大量のデータを音声認識エンジンでモニタして、テキストに書き起こす・インデックスをつけておく、など。人間が検聴して処理できる分量ではなく、「拡張指向」な適用と言える。
case2: オペレータ代行
周知のようにコールセンタのオペレータは非常な激務で定着率が低い。音声対話システム(自動応答システム)で一部を代行することは、オペレータを激務から解放するのに役立つのか? これは、「代替指向」に動機付けられているのか、それとも「拡張指向」で考えるのか?を明確にしておかないと、音声技術を導入して何を達成したかったのかわからなくなる危険がある。
case3: 「企業の顔(窓口)に自動応答など使えない」という考えは変わるか?
代替指向的な観点での音声インタフェースの導入には否定的な人も多い。これは地域・業種によらず普遍的なのか、それとも、日本と欧米の間では、音声インタフェースに対する価値観が異なるのか?
case4: 30分待たされても、人間のオペレータに対応させたいのか、限定的な対応でもよいから待たされずにシステムに対応させたいのか?
case5: 音声認識を、機械の"耳"とだけ考えて活用していくのか、あくまでも機械の"脳"と捉えて知的な能力を求めるのか。
case6: 対話システムが子供や老人の風貌をしていたら、音声認識・理解の性能の期待値は低く設定されるのか?音声対話システムをユーザからの期待値をどうコントロールすればよいのか?
case7: ロボット研究で有名な"不気味の谷"と同じ問題は、音声合成でも生じるのか? 音声合成に期待される品質とは何をどこまで実現することなのか?
ton:これらの課題は、思考を巡らすヒントにもなりますね。
例えば、case4などは、Webや携帯を使って自ら必要な情報を得る(セルフサービス)ことに慣れてきていますので、そのうち、人のオペレータが介在することの方が特別な対応になるかもしれません。
また、case3と7については、「ロボットから人間を考える」というテーマで、アイボのAI開発に携わった著名なフレデリック・カプラン氏のインタビュー記事が、示唆に富んでおり考えさせられました。
3回にわたって、音声認識のアメニティをテーマにとても役立つ情報をご提供頂きありがとうございました。
せっかくの機会ですので、何か自社の宣伝などありましたらお知らせください。
村上:弊社は、音声技術の他に、多くの方々がご利用になられているPDFファイル向けに編集用ソフトの開発、製造、販売も行っており、最近、「PDF Edit2 Professional」 という高機能かつ低価格の製品をリリースしました。体験版もご用意していますので、是非、弊社サイトをご覧ください。
ton:私も使ってみようと思います!