現在の音声認識技術では、理想的な環境(周囲が静か、マイクが近い等)では高精度な認識が出来ます。
これに対して理想的でない環境(雑音が多い、マイクが遠い等)では、認識精度が大幅に低下してしまいます。
そのため、理想的でない環境でも認識精度を保つ研究が進められています。
研究室では、遠隔発話音声認識の改善に関する研究が行われています。
遠隔発話環境下では、残響による音声の歪みが学習環境とテスト環境のミスマッチを引き起こし、音声認識性能を大幅に低下させてしまいます。
この問題に対するアプローチの1つとして、ニューラルネットワークに基づく残響除去法であるDenoising autoencoder(DAE)があります。
Denoising autoencoder(DAE)は、入力にノイズを付与したデータを、教師信号に入力データに対応するクリーンなデータを与えたモデルで、ノイズ除去の用途で用いられます。
DAEは残響を直接推定することが出来ないという問題点もあります。
これに対し、残響下音声から直接残響を推定し残響除去を行うMulti Step Linear Prediction(MSLP)との組み合わせの手法が提案されています。
このような手法によって認識結果の改善を目指しています。