言語処理学会第31回年次大会 併設ワークショップ JLR2025 - プログラム
JLR2025 プログラム
2025年3月14日(金)
出島メッセ長崎+オンライン中継のハイブリッド開催
公式アカウント@jedws
9:10-9:15
オープニング
9:15-10:20
10:30-11:30
11:30-12:05
12:05-13:20
昼休憩
13:20-14:35
14:45-15:35
15:35-16:00
総合討論・クロージング
🎤 一般発表 ⚡ ライトニングトーク 💻 オンライン発表
(発表時間は当日の進行状況により前後することがあります)
全ての概要を開く
午前<1> 9:15-10:20 座長: 久保 隆宏 (アマゾンウェブサービスジャパン)
大規模言語モデル(Large Language Models、以下LLM)が実運用され始め、専門領域特化LLMやプライベートLLMが増加、さらに今年はAIエージェント元年とも言われている。
営業支援やカスタマーサポート等で活用が期待されるAIエージェントにおいては、ユーザとの対話を通して必要情報の取得・提供を行うため、文脈を維持した自然な対話が求められる。
そこで実際の運用シーンを想定したラリー形式の対話を訓練する日本語のマルチターンデータを開発した。特定の業務シナリオにおける日本の現行ビジネスマナーに則った4ターン前後の対話データであり、各々の対話セットに分野と業種、各発話には発話素性を示すタグを付与している。また、このデータによるチューニング前後の生成対話を比較評価し、効果を検証した。
本報告ではマルチターンデータのデザイン効果検証結果について紹介する。
近年、チャットボット等の普及により、日本語言語モデルの学習のための高品質かつ多様な指示データセットの構築が求められている。一方、合成データを用いた学習がモデル性能の向上に寄与することが報告されているが、データ量の拡大は比較的容易である反面、多様性の確保には依然として課題が残されている。
本研究の目的は、職業・興味・性格・経験・知識などの属性情報(=ペルソナ)を活用し、多様な日本語指示データを合成することである。具体的には、ペルソナを利用して大規模な合成データを生成する手法Persona-Hubに着目し、2100万件の英語ペルソナデータセットFinePersonasを用いて、英語ペルソナから多様な日本語指示データが合成可能かどうかを検証する。さらに、合成された指示データの品質と多様性を評価するとともに、日本語テキストからペルソナを抽出する方法も検討し、従来の合成手法の多様性確保の課題に対する解決策を提示することを目指す。
10:00-10:20
高品質な合成データに基づくドメイン特化LLM開発フレームワーク
中村 友亮 (早大), 堀尾 海斗, 飯塚 康太 (フィックスターズ), 小田桐 海翔 (フィックスターズ), 吉藤 尚生 (フィックスターズ), 河原 大輔 (早大)
概要
資料
本研究では、特定ドメインのテキストが存在するときに、そのドメインに特化したLLMを開発するためのフレームワークを構築する。本フレームワークは、まず、既存のLLMによって特定ドメインのテキストから質問応答(QA)データセットを合成、さらにフィルタリングする。フィルタリングは、少量のアノテーションに基づくQA評価器を構築して行う。次に、得られたQAデータセットを用いてLLMに指示チューニングを適用し、ドメイン特化LLMを構築する。3つのドメインにおける検証実験を行ったところ、特に厳しいフィルタリングを適用することによって得られる高品質なQAデータセットを用いた場合に精度向上が見られ、提案フレームワークの有効性を確認した。
午前<2> 10:30-11:30 座長: 河原 大輔 (早大)
招待講演 🎙日本語の作文および対話性能向上のための合成データ生成と大規模言語モデル「Tanuki」の構築 10:30-11:30
講演者: 畠山 歓 先生(東京科学大学 物質理工学院 助教)
概要
GPT-4を始めとする大規模言語モデル(LLM)は社会的に大きなインパクトを与えた。LLMは産業や社会のインフラを支える基盤技術に成長する可能性があり、その構築手法に関する基礎的な知見を蓄積する取り組みには大きな意義がある。本発表では、優れた日本語の作文および対話性能を有する LLM をフルスクラッチで開発するための合成データ生成やモデル学習の取り組みについて紹介する。既存の LLM を用いて数百Bトークンに及ぶ合成テキストを生成し、その出力を学習させたモデル「Tanuki」を構築した。当日は学習データの詳細やモデル構築時の試行錯誤についても言及する。
講演資料
(準備中)
略歴
2018年3月 早稲田大学 博士(工学) 高分子合成と電気化学に関する研究 2018年4月 早稲田大学, 応用化学科, 講師(任期付) 2023年4月 東京工業大学(東京科学大学), 物質理工学院, 助教 2022年 高分子学会 高分子研究奨励賞
午前<3> 11:30-12:05 座長: 河原 大輔 (早大)
11:30-12:05
日本語ModernBERTの構築
塚越 駿 (SB Intuitions), 李 聖哲 (SB Intuitions), 福地 成彦 (SB Intuitions), 柴田 知秀 (SB Intuitions)
概要
資料
大規模言語モデルの時代においても、BERTは自然言語処理における主要なコンポーネントとして重要な役割を担い続けている。しかし、BERTは多岐に渡る需要が存在するにも関わらず、(1) 多くの既存BERTは最大系列長が512であり、それより長い系列に対応できない (2) LLM開発によって得られたアーキテクチャの改善などの工夫が取り入れられていない、という問題があった。
そこで我々は、2024年12月に発表され、英語BERTとして上記の問題に対処したModernBERTに基づき、日英合わせて4T tokenに及ぶ訓練を行うことで日本語ModernBERTを構築した。本発表ではその開発過程と得られた知見、評価結果について報告する。10以上のデータセットを用いた網羅的な評価の結果、我々のモデルは既存の日本語BERTと比較して最高性能を達成した。
午後<1> 13:20-14:35 座長: 大村 舞 (国語研)
音韻が類似した単語を検索する技術は、空耳やダジャレなどの言語ユーモアの自動生成において重要であるが、その精度を評価するベンチマークが不足している。既存のダジャレデータセットでは、文脈など音韻以外の要素が正解単語の選択に影響するため、音韻類似度を計算する手法間の細かな違いを評価しにくい。本研究では、元歌詞の音韻を特定ジャンルの単語だけで再現する替え歌(通称「〇〇で歌ってみた」)に着目し、実際の作品から収集した単語ペアと候補単語リストを用いた検索ベンチマークを構築する。「〇〇で歌ってみた」の歌詞は、意味的なつながりの少ない名詞の羅列であるため、文脈の影響を抑えた音韻類似度の評価が可能であり、また、替え歌に使用できる単語が限られることで検索タスクとしての定式化が容易になることが期待される。本発表では、ベンチマークの構築と活用について、予備的な検証結果を報告する。
大規模言語モデル(LLM)と外部検索を組み合わせたRetrieval-Augmented Generation (RAG)は、既知・未知の知識を統合して柔軟に応答する手法として注目を集めている。しかし、ベンチマークデータセットの多くは英語の一般知識ドメインに限定されており、日本語や実務ドメインに適用する際には課題が残る。本研究では、RAGEvalのフレームワークを拡張し、実務シナリオに特化した日本語の合成データセットを構築した。具体的には、(1) 病院の入院記録や企業統合報告書を模した仮想ドキュメント群をLLMで生成し、(2) 複数文書をまたいだマルチホップQAや要約、統計的・時系列的質問を含む多様な質問・回答対を作成している。また、本データセットを用いて既存のRAGモデルで評価検証した結果から課題と成果を合わせて報告する。
14:05-14:35
実在しないエンティティや出来事に関する合成文書を用いたRAGベンチマークの構築
李 聖哲 (SB Intuitions/早大), 大萩 雅也 (SB Intuitions), 塚越 駿 (SB Intuitions), 福地 成彦 (SB Intuitions), 柴田 知秀 (SB Intuitions), 河原 大輔 (早大)
概要
資料
検索拡張生成(Retrieval-Augmented Generation, RAG)とは,外部文書集合から検索により取得した関連文書に基づき大規模言語モデル(LLM)に回答を生成させる手法である.
既存のRAG評価ベンチマークでは,Wikipediaや新聞記事などの公開データを外部文書集合として使用する事例が多く見られるが,これらはLLMの事前学習コーパスに既に含まれている可能性が高く,関連文書に基づく回答生成能力を正確に評価できない可能性がある.
本研究では,実在しないエンティティや出来事に関する文書をLLMに合成させ,その合成文書集合を検索対象としたRAGベンチマークを構築する.
このような合成文書はLLMの学習データに含まれていないため,関連文書に基づく回答生成能力をより正確に評価できる.
ベンチマークは合成文書に加えて質問と正解から構成し,これらはLLMと人手を併用することにより作成する.
構築したベンチマークで既存のLLMのRAG性能評価を行い,分析を行った.
午後<2> 14:45-15:35 座長: 浅原 正幸 (国語研)
近年、大規模言語モデルの発展により言語資源の整備が進んでいるが、ジェスチャーなどの非言語情報の資源の重要性はまだ十分に認識されていない。しかし、言語理解と非言語理解は不可分であり、非言語情報の意味や頻度は言語や時代によって変化する。したがって、日本語における非言語資源の充実は言語資源と同様に重要である。本発表では、映像付きで公開されている『日本語日常会話コーパス』に非言語情報の注釈を付与する我々の取り組みを報告する。
機械翻訳の学習は通常、原言語と目的言語の対データのみを用いて行われる。しかし、実際の翻訳作業では、複数の作業者が異なる視点で作業に関与しており、多様な中間生成物が生じることが一般的である。本LTでは、「やさしい日本語ニュース翻訳器」の構築に焦点を当て、やさしい日本語ニュースの翻訳タスクにおける課題を掘り下げるとともに、この課題解決に向けた学習データ構築の取り組みを紹介する。
我々は、ストレス予測のためのマルチモーダルデータセットを構築した。本データセットは、テキスト、音声、匿名化した動画を収録しており、カウンセラーと産業医による客観ストレスラベル、アンケートによるストレス自己評価、ラッセルの円環モデルに基づく独自の客観感情ラベルが付与されている。本発表では、マルチモーダル感情/ストレス分析の実施結果の概要を示す。ストレス分析においては、ラベル分布の偏りが課題である。
『分類語彙表』の用言として収録されている語は、「落ちる」「入れる」のような動詞の基本語形に加え、「ほっぺたが落ちる」「名声地に落ちる」「入れる[数に~]」「入れる[茶を~]」のような連語や慣用句等も収録されている。そこで、『IPAL』の最重要動詞・重要動詞を対象に、それらの複数の意味・用法の『分類語彙表』の収録状況の過不足を検証するために、連語や慣用句等の収録状況を調査した。その結果を報告する。
ディスカッション (5分)
概要
資料
日本語および英語におけるゼロショットCoTプロンプト(「ステップ・バイ・ステップで考えてみましょう」などを追加する手法)の効果を ChatGPT-3.5と4o-miniで比較した。JMMLUおよびMMLUで検証した結果、GPT-3.5 では有効な場合があるが、GPT-4o-miniでは全体的に精度が低下。ただし、日本語では大学数学や抽象代数学など一部の分野で効果が見られた。
日本語マルチホップQAデータセットJEMHopQA作成時のエラー分析および修正版公開のお知らせ
石井 愛 (理研/BIPROGY), 井之上 直也 (JAIST/理研), 鈴木 久美 (理研), 関根 聡 (理研)
概要
資料
本発表では、2023年に公開した根拠情報付き日本語マルチホップQAデータセットJEMHopQA(https://github.com/aiishii/JEMHopQA)を作成した際、クラウドソーシングとGPTによる生成で発生していたエラーを改めて定量的に分析した結果を考察する。また、JEMHopQAの修正版と評価スクリプトの公開についてご報告する。
JamC-QA: 日本固有の知識を問う多肢選択式質問応答ベンチマークの構築
岡 照晃 (SB Intuitions), 柴田 知秀 (SB Intuitions), 吉田 奈央 (SB Intuitions)
概要
資料
日本語大規模言語モデルの開発競争が活発化する中、日本の文化や風習に特化した難度の高い評価用ベンチマークが必要になっている。本稿では、現在構築している日本語の多肢選択式質問応答ベンチマーク JamC-QA について述べる。JamC-QA は日本の文化や風習といった国内独自の知識を問う問題を既存のベンチマークの翻訳でなく、1から作成しており、問題数は 2024年12月現在、1,045問である。評価実験では、JamC-QAを用いることで、日本固有の知識問題に関するモデル性能の差を確認できた。これは既存の日本語ベンチマークでは見えなかったものである。またスコア向上の余地もあり、解くべき難しさもまだ十分に含むことがわかった。
大規模言語モデルの評価用の多肢選択式データセットとしてMassive Multitask Language Understanding [MMLU, HendrycksらICLR21]が有名である。MMLUの一部を日本語に翻訳したデータセットとして日本語MMLU(JMMLU)が提案されている[尹ら言語処理学会24]。しかし、もとになるMMLUの設問は英語圏のデータセットであるため、高校レベルとされていても必ずしも日本の学習指導要領上高校レベルとは限らなかった。本研究では、JMMLUの高校レベルの物理・化学・生物のデータセットについて、日本の学習指導要領に沿って4段階に難易度を付けたデータを作成したので報告する。
ディスカッション (5分)
概要
資料