音声の個人性知覚における話者内変動に対する頑健性

本研究は、平成16年度(2004年度)から平成18年度(2006年度)まで総務省戦略的情 報通信研究開発推進制度(SCOPE-R)の支援を受けて行われました。

■ 音声の話者内変動とは?

音声の中のさまざまなパラメータは、発話内容や話者の状態によって変化します。 例えば、「あ」と「い」では時間波形やスペクトル(音声を周波数分析したもの) が違います。同じ「おはよう」でも、パラメータが全く同じ「おはよう」はロボッ トでもない限りあり得ません。

下の図は、1人の男性が色々な状態で発声した音声のスペクトルです。同じ「あ」 でも状態によってスペクトルが変化することがわかります。このように1人の話 者のパラメータがさまざまに変化することを「話者内変動」するといいます。

intra-speaker variation
 of speech spectra

それにもかかわらず、私たち人間は、知っている人の声からその話者についての 情報(これを「個人性」といいます)を取り出して、誰が話したのかを知ることが できます。 このように変動の影響を受けにくいことを「頑健だ」といいます。 人間はどうしてこのようなことができるのかを調べるのが本研究の目的です。


■ 母音間に共通する話者の特徴

私たちは、知っている人の声であれば、「あ」でも「い」でもその人だとわかり ます。これは、「あ」にも「い」にもその人についての情報が含まれていること を示しています。それはどのような情報なのでしょうか。

このことを調べるために、「母音間に共通する話者の特徴がある」という仮説を 立てて、実験を行いました。実験参加者が声を知らない人(未知話者)が発声した 母音を、

Aさんの「あ」 Bさんの「あ」 AさんもしくはBさんの「い」

という順番で実験参加者に聞かせて、3番目の話者がAさんかBさんかを当てても らう実験をしました。その結果、ある母音に含まれる話者の特徴を使って、他の 母音の話者を当てることができることがわかりました。つまり、母音間に共通す る話者の特徴があるということです。

もっと詳しく知りたい方は


■ 持続母音中の各種パラメータの個人性知覚に対する寄与

上記の実験で、母音に共通する個人性情報が存在することがわかったので、それ に対応するパラメータを探すことにしました。「話者が意識的に制御しにくく、 話者内変動の小さいパラメータほど個人性知覚に寄与する」という仮説を立て、 これを検証することにしました。音声には、生まれ持った発話器官の形などによっ て決まる、話者が意識的に変えられないパラメータが含まれているのです。

実験では、未知話者(実験参加者が声を知らない話者)10名の持続母音「あ」を対 象にして、次のパラメータの個人性知覚に対する寄与を調べました。

これらのパラメータを変化させた刺激音を作成し、サーストンの一対比較法とい う手法で聴取実験を行いました。上の仮説にもとづけば、声帯音源波の周波数特 性と音声スペクトルの高周波数成分の寄与が大きいと予想されました。

サーストンの一対比較法により、下の図のような「間隔尺度」と呼ばれる結果が 得られます。これは各刺激音の間の個人性知覚に関する距離を示しています。こ こで、各記号の意味は次の通りです。


interval scale
個人性の近さに関する間隔尺度

この図から、次の順序で個人性知覚に対する寄与が大きいことがわかりました。

  1. 音声スペクトルの高周波数成分
  2. 声帯音源波の周波数特性
  3. 平均ピッチ周波数
  4. ピッチ周波数と振幅の時間変動パターン、
このリストは、より上位のパラメータほど生まれ持った発話機構の特徴に依存し、 話者が意識的に制御しにくいものです。したがって、上の仮説の通り、人間が話 者を聞き分ける時には音声中で変動しにくいパラメータを重視していると言えま す。私たちは、人間がこのようなパラメータを利用することによって、話者内変 動に対する頑健性を実現しているのだろうと考えています。

もっと詳しく知りたい方は


■ 声の高さの変化に伴う声道形状の変化

人間の知覚について調べる一方で、話者内変動が生じる仕組みについての研究も 行いました。

男性3人(被験者A、B、C)が、ピッチ周波数110 Hz、123 Hz、130 Hz、146 Hz、 164 Hzで発声したときの様子をMRI(磁気共鳴画像法)で撮像して、声道の形を分 析しました。その結果を下に示します。


subject A subject C legend
被験者A被験者C

5段階の声の高さで発声したときの声道の形 (母音「い」)

被験者Aは、声が高くなるにつれて、声門の位置が高くなることがわかります (被験者Bも同様)。声道を音響管とみなすと、管の長さが短くなることになりま すので、発声される音声のスペクトルピークは高周波数側にシフトしていきます。 一方で、被験者Cは声を高くすると喉頭(声門の上の部分)が広がります。これら のことから、声を高くする動作は皆同じではなく、人による違いがあることがわ かります。

MRIを使った観測から次のようなことが明らかになりました。

  1. 人間は、声の高さ(ピッチ周波数)を変える時、音韻を保つために声道の狭い 部分の位置と断面積を保ちつつ声道の形を変化させる。また、声道下部の 形はほとんど変わらない。
  2. 従来、ピッチ周波数の変化によって声道は一様に伸縮すると考えられてき たが、実際には非一様に変化する。これは、喉頭とそれより上の部分が機 械的にリンクしていることに起因する。
  3. ピッチ周波数の変化による声道の変形は、喉頭の高さ、下顎の動き、口唇 の動きの3つのパラメータだけでほぼ記述できる。
歌声など、声の高さが変わる音声の合成に役立つ結果と言えます。

もっと詳しく知りたい方は


■ 本研究に関する全発表リスト(研究の一部を支援されたものを含む)


Last updated on May. 1 2007.
copyright © 2007 Tatsuya Kitamura / All rights reserved.