発表

1A-053

声色の罠:−高いのに低い声?− 基本周波数の高低関係と声の高さの印象の反転現象

[責任発表者] 内田 照久:1
1:大学入試センター

目 的
 本報告では,声道長(vocal tract length: VTL)の操作を模して,スペクトル包絡の周波数軸を伸縮させた変換音声の音色変化に伴う,声のピッチ感への認知的なバイアス量を検討する。実験では,声道長操作を模したスペクトル周波数軸の伸縮と,基本周波数(F0)パターンのmel scale上での昇降を組合せて変換音声を生成する。その対比較による主観評価実験を行って,声の高さの認知的なバイアス量を測定する。さらにそのバイアスには,F0パターンの高低関係と,声の高さの印象評価の関係を逆転させるほどの効果があるかについても検討する。
方 法
 原音声 新聞記事読み上げ音声コーパスの音声の中から,男声・女声各8名の発話による16種類のモノローグ音声。
 スペクトル周波数軸の伸縮とF0の昇降操作 音声変換には,WORLD v0.2.0_5 を使用した。ターゲットの声道長としては,女声は12.96 cmと15.1 cm,男声は15.1 cmと17.6 cmを設定した。Kawahara, et al.(2014)の任意音声から声道長を推定する方法を利用し,ターゲットの声道長にするための伸縮率を算出した。F0パターンの昇降では,音高知覚に対応するmel scale上で,±5~±20 melの範囲を4段階で昇降させる実験条件を原音声別に割り当てた。その上で,オリジナルのF0パターンのもの,指定mel分だけ上昇シフトさせたもの,及び,下降シフトさせたものの3種を生成した。
 実験音声の生成 Fig. 1左図は原音声のスペクトル周波数軸を伸長したもので,右図の圧縮と比べると,フォルマントの位置が全般に高域に移動している。これは音響管としての声道長の縮小に相当する。なお,変換後の音声に含まれるスペクトルの範囲を揃えるため,帯域上限は7kHzに制限した。この変換により,原音声ごとに声道長(VTL):2段階,F0:3段階で計6つの変換音声が生成される。この6音声の間で比較対を作り,その声質の違いを評価した。
 実験参加者 大学1年生141名(男性:110名・女性:31名,18~22歳)が参加。参加者と音声対を10分割して各群に8対ずつ割り当てて,比較評価実験を行った。
 手続き 評価には,声質表現語による項目,声の自然性,話者の体格の項目を使用した。携帯型CDプレーヤーで実験音声対を提示。AとBの2つの音声を続けて提示。2つの声を比較して,どちらの声が各項目の内容に,あてはまるかを10段階で評定した。なお,制限時間は60秒であった。
結 果 と 考 察
 声の高さの評価に関わる項目を分析した。各音声対をVTLの差(VTL diff.)とF0の差(F0 diff.)で表現する平面上に整理し,その上に“声の高さ”の評価指標を示す(Fig. 2)。
 Fig. 2中央のVTLは同じでF0だけ異なる対の系統を見ると,AのF0がBより高く,F0 diff.が大きいほど,Aの方が高いと感じており,F0の高低関係が声の高さの評価と対応している。
 一方,Fig. 2左側のAのVTLがBより短い系統では,上述のVTLが等しい系統と比べると,AがBより,よりいっそう高く評価されている。この上昇分が,AとBのVTLの違い,声道長縮小に伴う音色の違いに起因する声の高さの評価へのバイアス量と考えることができる。ここで特に注視すべき点は,図の左側手前に向かって,F0の高低関係ではBがAよりも高くなっているにも関わらず,この系統では依然として,Aが高いと判断されている。すなわち,この領域では,F0の高低関係と,声の高さの印象評価の関係が逆転している。
 今後,この現象が生起するメカニズムの解明が課題である。
引 用 文 献
Morise, M. “WORLD,” http://ml.cs.yamanashi.ac.jp/ world/index.html
(参照2016-06-30)
内田照久(2016). 基本周波数の高低関係と声の高さの印象の反転現象 −声の音色の違いによるピッチ感への認知的バイアス− 日本音響学会 聴覚研究会資料, 46 (9), H-2016-106, 559-564.

詳細検索