2025.05.23
言語処理学会第 31 回年次大会(NLP2025)に参加しました
こんにちは! IT 戦略企画室デジタルソリューション部の塙、大竹です。
2025 年 3 月 10 日(月)〜 14 日(金)に長崎にて開催された言語処理学会第 31 回年次大会(NLP2025)において、講談社はゴールドスポンサーとして参加をしてきました。本記事ではその際の様子をご紹介したいと思います。
目次
NLP2025 について
言語処理学会は、人工知能や言語学などの分野にまたがる自然言語処理を専門とする学会です。近年は LLM の隆盛もあり参加者数や発表件数が急激に伸びており、今回の参加者数は 2248 人、発表件数は 777 件、スポンサー数は 103 団体と、いずれも過去最高を更新していました。

ポスター紹介
今回の参加にあたり、ポスターで講談社での取り組みをご紹介しました。講談社には小説や漫画をはじめとする大量のコンテンツデータ、コミックアプリにおけるユーザー行動データ等が蓄積されており、これらのデータを活用した様々な取り組みが進んでいます。


面白かった研究発表
大規模言語モデルにおける In-context Learning の推論回路
大規模言語モデル(LLM)における In-context Learning(ICL)のメカニズムを明らかにするために、ICL の推論過程を「入力テキストのエンコード」、「セマンティクス統合」、「特徴検索とコピー」の 3 つの基本操作に分解して分析したものです。関連する接続を切断すると ICL 性能が大きく低下することを示すことで、提案した推論回路の存在を示唆しています。デモのラベル誤りへの頑健性やデモの飽和現象など、ICL で観察される多様な現象を統一的に説明している点が大変興味深かったです。
コーパスの逆蒸留
学習データの蒸留を逆向きに適用し、ある学習データがもたらすモデルの変化と逆の変化をもたらすような学習データを生成する手法を提案しています。有害な文章を含むコーパスを逆蒸留することで、モデルから有害な表現を除去するような学習データが得られることを複数のモデルを使った実験で確かめており非常に興味深かったです。質疑でも出ていましたが、有害性以外の方向(例: 文書の難易度)にも適用可能なのかが気になりました。
Mixture-of-Experts の悲観的な統合による頑健な自然言語理解
自然言語理解タスクでの「ショートカット」と呼ばれる分布外性能低下問題に対し、Mixture-of-Experts(MoE)モデルを悲観的に統合することで頑健に予測する手法を提案しています。既存手法における分布内データでの性能低下や、ハイパーパラメータ調整に分布外データが必要となるという実用上の問題を緩和し、分布内データのみからでも高い分布外性能を示すことができています。個人的には「シンプルなアイデアで高い効果」という研究がツボなので非常に楽しく聞くことができました。
ユーザ行動ログに基づくクエリ理解のための検索クエリ埋め込み
検索機能を持つプラットフォームにおけるユーザーの検索行動ログを利用し、対照学習を用いてユーザーの意図をより良く捉えたクエリの埋め込み表現を得る手法を提案しています。ユーザーの検索体験の向上にダイレクトに寄与する内容で非常に興味深かったです。実際のオンライン実験の結果も気になりました。
感想
塙
LLM の台頭により自然言語処理技術を活用するハードルが下がってきているためか、非常に幅広い分野の方が参加されているようでした。私が初めて参加した約 10 年前の NLP と比べると、実用寄りの研究発表の数が増えているような印象を受け、実用的な場面で LLM が使われることが本当に増えてきているのだなと実感しました。自分の中の知識のアップデートや、学生や研究者、技術者の方とコミュニケーションをとることができる非常に良い機会となりました。今後は我々も、何かしら研究発表につながるような取り組みをして、分野に貢献できると良いなと思いました。
大竹
アカデミアでは昨年にも増して LLM の挙動を分析したり解釈したりする研究が盛り上がっている印象を受けました。またインダストリでは LLM そのものの開発や RAG システムの開発に加えて、当たり前のように LLM をひとつの道具(例: 情報抽出の道具、データ拡張の道具)として活用した機械学習関連の取り組みが増えており、企業における LLM 活用の広がり感じました。懇親会では様々な業種の方と密な情報交換ができ、すぐに持ち帰って試したくなるようなアイディアが多く生まれた非常に有意義な会議でした。
最後に
次回の NLP は 2026 年 3 月 9 日(月)~ 13 日(金)に宇都宮で開催予定とのことです。また多くの方々にお会いできることを楽しみにしています!
著者紹介
IT 戦略企画室 デジタルソリューション部 / 塙 一晃
2022 年中途入社の機械学習エンジニア。自然言語処理技術を活用したプロダクトの開発等を担当。博士(情報科学)。好きな漫画は岩明均「寄生獣」。
IT 戦略企画室 デジタルソリューション部 / 大竹 孝樹
2024 年中途入社の機械学習エンジニア。レコメンドシステムの構築等を担当。好きな本は村上春樹「ダンス・ダンス・ダンス」。