研究テーマ
綱川研究室は自然言語処理およびその周辺分野を研究テーマとしています。
自然言語処理とは、人間が扱う言語をコンピュータで扱うことを指します。代表的な応用に「機械翻訳」や「情報検索」などがありますが、PCやスマートフォン等を通じて我々が「ことば」に触れる機会はどんどん多様化し、それにつれ新しい応用が生まれています。また、ChatGPTをはじめとした近年の人工知能技術のブレークスルーにより最も恩恵を受けている分野の一つでもあります。
以下、当研究室の主な研究テーマを紹介します。
機械翻訳
機械翻訳はコンピュータ黎明期からコンピュータの主要な応用として取り組まれている伝統的かつ最先端の研究テーマです。近年、書き言葉における日本語から英語への翻訳はニューラル機械翻訳と呼ばれる技術の導入によりかなり流ちょうになっていますが、それでも正確さが要求されるシーンでは人手による修正が不可欠であり、また音声翻訳といった話し言葉の翻訳にはまだまだ課題が残されています。
- 和文英訳問題添削システム(デモシステム(メンテナンス中))
- 大規模言語モデルによる機械翻訳能力の検証
自動評定システム
学校で行われる試験の中の記述式問題や、オンラインショッピングサイトの商品に対するレビューのように、その記述に何らかの評価が付けられる場合があります。これには労力がかかるので自動化しようというのが動機です。現在は、一定数の評価例があるものの評価基準が複雑な記述式タスクを対象にその評価を予測する課題に取り組んでいます。
- 日本語小論文の自動採点
大規模言語モデルによる生成テキストの検出
ChatGPTを始めとする大規模言語モデルを用いた生成AIが生成するテキストは、従来の生成モデルに比べて流ちょうさが格段に上がっており人間が書いたテキストと見分けがつかなくなってきています。自動生成されたテキストかどうかを検出するシステムも同じモデルを使って構築することができ、少なくとも人間よりは高精度な判別が可能ですが、自動生成であると確定することは困難です。普及過程にあるテキスト生成モデルの利用場面においてどのような問題が生じるか、そしてそれぞれの問題に対して自動生成テキスト検出を通じた解決策を提示することができるか、といった課題に焦点を当てます。
暗黙的な表現に対する感情分析
テキストがもつ感情、例えばポジティブ、ネガティブといった感情極性を自動的に判別する感情分析を行う際、皮肉などの婉曲表現が含まれていると、表層的な情報だけでは正しい感情を導くことができません。皮肉やヘイトスピーチを対象に、なぜその表現が皮肉やヘイトスピーチとして扱われるのかの根拠や背景といった知識を用いることで、暗黙的な表現に対する検出精度を向上する研究を行っています。
- 判断根拠に基づくヘイトスピーチ検出
- 常識抽出システムを用いた皮肉の分析
雑談対話システム
対話システムの中でも、人間どうしが行うような雑談をターゲットとしたものがあり、認知症予防といった効果が期待されています。しかし、観光案内など何かを目的とした対話システムと異なり、雑談する上ではシステムがいかに人間に近い振る舞いをするかということがより強く要求されます。現在は、対話環境における音声認識精度の改善や、対話システムによる雑談をうまく続けるための会話相手の話題意欲の度合いの推定をテーマとして研究を進めています。
特許情報処理
特許を構成する文書は膨大であり、また法律上の効力を得るため一般の書き言葉とは異なる独特の文体を持っています。このため特許関連文書を対象とする自然言語処理ではそれに特化した対応を行う必要が生じます。また、特許の検索や分類、特許文書の翻訳といった特許特有の事情から生じる課題があるのも特徴です。
- 汎用言語モデルを用いた効率的な類似特許検索
その他に取り組んでいる(取り組んでいた)主なテーマ
- 二輪車の運動センシングによる走行技量評価コメントの生成
- 大規模言語モデルの日本語理解能力の検証
- SNS上の感情と恐怖指数の相関に関する分析
- 知識グラフにおけるエンティティタイプ名の生成
- 非構造化テキストを対象とする知識グラフ生成・拡張システムの機械学習手法による精度改善
- 敵対的生成ネットワークを用いて抽出した画像の構造情報に基づく画像キャプション生成
- 連想に基づく概念合成で生じた未知の概念を表現する画像の生成
- 擬似的な難易度付きパラレルコーパスを用いた日本語文章の多段階平易化
- Wikipediaを使ったWikification(エンティティ・リンキング)
関連リンク
静岡大学情報学部 NIST研(西村研/綱川研/西田研)ホームページ