音声検索語検出とは、検索語が音声ドキュメント中で発話されている箇所を特定することです。(応用例:録画番組の検索)
音声検索語検出が難しい理由は、一般的なテキスト検索ではなく音声データに対する検索であるためです。
その解決方法として、音声認識で音声データをテキスト化してテキスト検索するという方法が考えられます。
しかし、音声認識結果には誤認識が含まれるため、一般的なテキスト検索では正確な検出が困難です。
研究室では、音響的な類似度を考慮したり、誤認識を許容した検索を行うことで誤認識に対応する工夫を行っています。