メルケプストラムについてのまとめ

はじめに

メルケプストラムとは何か？一言で表せば、

人間の聴覚特性を考慮したケプストラム

となるだろうか。本記事ではメルケプストラムについて簡単にまとめる。

メルケプストラムの特徴

ケプストラムとメルケプストラムの違いは以下の図に示す通りである。

いずれもスペクトル包絡を少ない情報量で表現するパラメータ（音響特徴量）である。ケプストラムは周波数軸上、一様なスケールでスペクトルをサンプリングし、フーリエ変換することによって得られる*1。しかしながら、低周波数領域では感度が高く、高周波数領域では感度に乏しいという人間の聴覚特性が考慮されていない。メルケプストラムは、一様な周波数スケールから聴覚特性を反映したメルスケールへと周波数伸縮し、このメルスケール上でスペクトルをサンプリングして得られるケプストラムである。利点としては、通常のケプストラムよりも次数が少なく済むことなどが挙げられる。

メルケプストラム分析

メルケプストラムの分析（推定）方法には以下の２通りが存在する。

左に示したのが非統計的な手法であり、上で説明した通りである。本来メルケプストラムは無限次数であるが、実際は有限次数で打ち切るため、誤差が発生する。この誤差により、得られたメルケプストラムに基づいて表されたスペクトルは、もとのスペクトル推定法に基づくスペクトルからは異なったものになるという欠点がある*2。一方、右に示したのは名工大の徳田先生が東工大時代に提案された方法である。打ち切り誤差に伴ったスペクトルの歪みが発生しないよう、メルケプストラムを統計的に推定する。詳細は参考文献にゆずるとして、その推定方法の概要を述べる。

現在のメルケプストラム $\boldsymbol{c}$ から決まるスペクトル包絡と、音声波形から $\boldsymbol{x}$ から計算される尤度関数（評価関数）を定義する。
現在のメルケプストラムをモデルパラメータとみなし、音声波形 $\boldsymbol{x}$ に対する尤度を最大化するメルケプストラムを推定する。
2を収束するまで繰り返すことでメルケプストラムを最適化する。