話者ダイアライゼーション技術

話者ダイアライゼーション(Speaker Diarization)とは、話者や話者の人数が未知の音声を解析して「いつ誰が話したか」を自動推定する技術です。
会議音声への話者ダイアライゼーションの適用は、議事録の自動作成や発話者の音声強調、話者ごとに適応した音響モデルによる自動書き起こしなどに応用ができます。
しかし、会議音声には雑音や残響が含まれているため話者ダイアライゼーション性能が悪化してしまいます。
そのため研究室では、雑音・残響に対して頑健な話者ダイアライゼーションを行うための工夫を行っています。