音声中の非言語情報の生成・知覚の特性解析と多言語間コミュニケーションへの応用

本研究は、平成19年度(2007年度)から3年間 総務省戦略的情報通信研究開発推進制度(SCOPE)の 支援を受けて行われました(代表者: JAIST赤木正人教授)。

■ 音声中の非言語情報とは?

音声には文字に書き起こせる言語情報だけでなく、話し手の感情や話し手の年齢などの情報も含まれています。 この言語情報以外の情報を非言語情報やパラ言語情報といいます。 本研究では、音声中のこれらの情報がどのように生み出され、そして聞き取られるのかについて研究します。 この研究によって、コミュニケーションをより円滑にする技術の開発が期待できます。


■ 本研究室で分担するテーマ

本プロジェクトは、日本国内はもとより、海外の大学・研究所とも協力して進められています。 本研究室では、以下の研究テーマについて取り組みます。


■ 情動発話の副作用仮説 (2009)

怒ったり、悲しんだり、喜んだり、といった情動の変化は、私たちの身体に様々な影響を与えます。 以下、「怒り」を例にして話を進めますが、 怒ったときに手を握りしめたり、思わず大きな声が出たりした経験は誰にもあると思います。 このようなときは「(例えば)大きな声を出そう」と考えて声を出しているのでしょうか? 怒ることによって身体に力が入り、その状態で声を出すので「思わず」「意図せず」大きな声が出るとは考えられないでしょうか。

このような考えのもとで私たちが提案しているのが、「情動発話の副作用仮説」です。 この仮説では、情動により発話器官を含む身体に変形が生じ、その状態で声を出すので 「副作用的に」怒った声が出ると考えます。 つまり、情動に伴う音声は、「出す」のではなく「出る」ものだと考えます。

この仮説を検証するのはかなり難しいですが、1つの試みとしてMRIによる観測を行いました。 怒った状態の発話器官の形と、その状態で「ええ」と発話した状態の発話器官の形を比較します。 これらの間に同じ傾向があれば、発話の意図にかかわらず情動によって発話器官は変形し、 情動下ではその変形が維持されて発話されることがわかります。

下の画像がその結果です。同じ情動の下では、 発話あり/なしの状態に共通した発話器官の変形が生じていることがわかります。 あくまで間接的な検証に過ぎませんが、上の仮説を否定しない結果であることは確かです。

MRI data
女性話者の「平静」、「激怒」、「喜び」、「悲しみ」の情動下における発話器官の形状。 発話あり/なしの2状態

より詳しい内容を知りたい方は、以下の文献をご参照ください。


■ 物真似音声の分析(2007)

物真似タレントによる本人そっくりの物真似は、音声科学の観点から見ても大変興味深いものです。 しかし、データの権利の処理に難しさがあり研究が進んでいません。幸いにも、今回、 NHK解体新ショーに出演した折に、 プロの物真似タレントの音声データを分析する機会を得ました。

今回は、2つの文章を対象にして、以下の3種類の音声を分析しました。

ここでは、基本周波数と周波数特性についての結果を示します。 基本周波数は声の高さに関係するパラメータです。 下に、「一度でいいから見てみたい」という音声の基本周波数のグラフを示します。 このグラフを細かく分析すると、

  1. 物真似音声の平均基本周波数が対象音声に近付けられている。
  2. 物真似音声の基本周波数の変化パターン(イントネーション)が 対象音声に近付けられている。
といったことがわかりました。

f0
図:「一度でいいから見てみたい」という音声の基本周波数(対数表示)。 1段目:対象話者、 2段目:物真似タレントによる物真似、 3段目:物真似タレントによる地声。矢印と数値は変化の傾きを表す。

次に、スペクトルの分析結果を示します。 スペクトルは音声の周波数の特性を表したもので、音韻や声質に関係します。 下に、3つの音声の「あ」のスペクトルを示します。 これらを比較すると、物真似音声では、

  1. スペクトル全体の形
  2. スペクトルのピーク
  3. スペクトルの谷
が対象音声に似せられていることがわかりました。 こんなに似るのは驚きです。プロはすごいです。

spectra
図:「あ」のスペクトル。 1段目:対象話者、 2段目:物真似タレントによる物真似、 3段目:物真似タレントによる地声

より詳しい内容を知りたい方は、以下の文献をご参照ください。 また、甲南大学の広報誌「甲南Today」31号(PDF)15〜16ページに関連のインタビュー記事が掲載されています


■ 声道音響特性の計測(2007)

発話中の声道内の音響現象をシミュレーションしようという研究が行われています。 しかし、シミュレーションの精度の評価がきちんと行われていませんでした。 そこで、精度評価のための基準値を示すために、 声道模型の音響特性を実測しました。

この声道模型は、教育・研究用に公開されている、 ATR母音発話MRIデータから作られています。 ですから、誰でも、このMRIデータと今回の測定結果を用いて、 自分のシミュレーションの精度を評価することができます。

response
図:5母音の声道模型の測定結果


setup
写真:無響室での測定の様子。 無響室は音が反射しないように壁がくさび状の吸音材になっています。 真ん中にスピーカと声道模型が写っています。 奥にHATSが見えます。

実体声道模型の音響特性をベンチマークとして測らなくては、 と着想してから測定方法の検討に紆余曲折があり、6年が経ってしまっていました。

より詳しい内容を知りたい方は、以下の文献をご参照ください。


■ 歌声知覚における脳内処理(2007-)

歌声と話し声とを聞き分けるときの脳内処理などについて、fMRI装置を使って 実験を進めています。より詳しい内容を知りたい方は、以下の文献をご参照く ださい。



Last updated on Mar. 11 2010.
copyright © 2007-2010 Tatsuya Kitamura / All rights reserved.