言語処理学会第31回年次大会併設ワークショップ JLR2025

日本語言語資源の構築と利用性の向上

言語処理学会第31回年次大会（NLP2025）併設ワークショップ

日時：2025年3月14日(金) 全日開催

会場：出島メッセ長崎＋オンライン中継のハイブリッド開催

共催：国立国語研究所
　　　科学研究費補助金・基盤研究(A)「人知との融合による大規模言語モデルの大規模知識モデルへの進化」

Twitter公式アカウント@jedws

趣旨

自然言語処理における各種タスクのモデルを訓練、評価、分析するためには、注釈付きコーパスや大規模言語モデル(LLM)などの言語資源が必要不可欠である。英語を中心に多くの言語資源が構築、公開されているが、日本語では多くない。この状況は、日本語における自然言語処理の迅速な発展を阻害する要因となっている。

本ワークショップでは、学習データや評価ベンチマーク、マルチモーダルデータセットなどの日本語言語資源の構築方法そのものに加えて、LLMなどのモデル構築方法や利用性を高めるためのライセンス設定など、言語資源の普及および応用を容易にするための研究について集中的に議論する。これによって、日本語言語資源の構築、公開の流れを加速し、日本語自然言語処理のさらなる発展につなげていきたい。

招待講演：日本語の作文および対話性能向上のための合成データ生成と大規模言語モデル「Tanuki」の構築

講演者: 畠山歓先生（東京科学大学物質理工学院助教）

概要

GPT-4を始めとする大規模言語モデル(LLM)は社会的に大きなインパクトを与えた｡LLMは産業や社会のインフラを支える基盤技術に成長する可能性があり､その構築手法に関する基礎的な知見を蓄積する取り組みには大きな意義がある｡本発表では､優れた日本語の作文および対話性能を有する LLM をフルスクラッチで開発するための合成データ生成やモデル学習の取り組みについて紹介する｡既存の LLM を用いて数百Bトークンに及ぶ合成テキストを生成し、その出力を学習させたモデル「Tanuki」を構築した｡当日は学習データの詳細やモデル構築時の試行錯誤についても言及する｡

講演資料

資料

略歴

2018年3月早稲田大学博士(工学) 高分子合成と電気化学に関する研究

2018年4月早稲田大学, 応用化学科, 講師(任期付)

2023年4月東京工業大学(東京科学大学), 物質理工学院, 助教

2022年高分子学会高分子研究奨励賞

タイムテーブル

プログラムの詳細はこちらから

スケジュール

2024/11/21 (木)　　　　　　Webサイト公開
2024/12/13 (金)　　　　　　JLR2025 発表募集要項公開、JLR2025 一般発表・ライトニングトーク申込受付開始
2025/01/08 (水)　午前９時　NLP2025 事前参加登録受付開始
2025/02/12 (水)　　　　　　JLR2025 一般発表申込締切・NLP2025 事前参加登録締切
2025/02/19 (水)　　　　　　JLR2025 仮プログラム公開
2025/02/26 (水)　　　　　　JLR2025 ライトニングトーク申込締切
2025/02/27 (木)　　　　　　JLR2025 プログラム公開
2025/03/03 (月)　　　　　　NLP2025 直前参加登録受付開始
2025/03/07 (金)　正午　　　NLP2025 直前参加登録受付締切
2025/03/09 (日)　　　　　　JLR2025 発表資料提出期限
2025/03/14 (金)　　　　　　JLR2025 ワークショップ当日

発表募集要項

募集する発表内容

日本語のデータセットや大規模言語モデルなどの言語資源を構築されている方は、論文では語られない苦労話を含めて、構築に関する知見をぜひご発表ください。これから言語資源の構築を始めようとしている方には、その構築の狙いについてご発表をお願いします。また、自然言語処理に関する知識をお持ちかどうかを問わず、特定分野の日本語言語資源の必要性を伝えるご発表を歓迎します。さらに、日本語言語資源の充実にむけて克服すべき障壁や課題、そしてそれらの解決に向けたご提案も歓迎します。下記に内容の例を示しますが、これらにとどまらず様々な取り組みについてご発表をお待ちしています。

日本語データセットの構築と公開

日本語データセット構築における知見や問題点の共有
データセットの公開方法に関する知見や問題点の共有
評価用データセットでの性能評価結果の共有

大規模言語モデルの構築と公開

大規模訓練データの整備
大規模計算資源の配分管理
モデルの信頼性・透明性・安全性の確保

日本語自然言語処理の研究開発と産業応用

自然言語処理の現場で必要とされる日本語言語資源について
産業応用における強い需要がある日本語言語資源の共有

発表資料の事前提出について

発表資料を PDF 形式で事前に提出してください。
公開を希望しない場合を除いて発表資料は本サイトに掲載いたします。問題が生じる懸念がある場合には修正をお願いすることがありますのであらかじめご了承ください。
発表資料の著作権は発表者に帰属しますが、CC BY 4.0(Creative Commons Attribution 4.0 International License) で公開することに同意していただきます。

発表方法

一般発表・ライトニングトークを含む全てのセッションについて現地会場(出島メッセ長崎)またはオンライン(Zoom)のどちらからでも発表できます。
現地会場・オンラインを問わず発表資料は発表者所有のPCからZoomで画面共有を行っていただきます。

発表種別

一般発表

発表15〜30分 + 質疑5分程度
発表申込時に発表者・タイトル・概要(400字程度)を提出してください。

ライトニングトーク

発表5分程度 + セッションの最後にまとめて質疑を行います。
発表申込時に発表者・タイトル・概要(200字程度)を提出してください。

※プログラム編成の都合で、一般発表・ライトニングトーク間の種別や発表持ち時間が変更される場合があります。審査により発表が不採択となる場合があります。予めご了承ください。

発表申込期間

一般発表

2024年12月13日(金)～2025年02月12日(水) (発表の申込みは締め切りました)

ライトニングトーク

2024年12月13日(金)～2025年02月26日(水) (発表の申込みは締め切りました)

発表資料提出期限

2025/03/09 (日)

発表申込フォーム

※発表申込は締め切りました。

参加申込

本ワークショップは言語処理学会第31回年次大会(NLP2025)の併設ワークショップとして開催されます。本ワークショップの発表および聴講参加には言語処理学会第31回年次大会(NLP2025)への参加登録(有料)が必要です（言語処理学会会員である必要はありません）。 NLP2025 の参加登録期間は、事前登録が2025/01/08〜02/12、直前登録は2025/03/03〜07正午、当日登録は2025/03/10〜14正午です。

提案者

浅原正幸国立国語研究所
伊藤敬彦株式会社リクルート Megagon Labs
大村舞国立国語研究所
河原大輔早稲田大学
久保隆宏アマゾンウェブサービスジャパン合同会社
坂口慶祐東北大学
柴田知秀 SB Intuitions
松田寛株式会社リクルート Megagon Labs
宮尾祐介東京大学

問い合わせ先 jlr2025 (at) googlegroups.com

日本語言語資源の構築と利用性の向上

新着情報 ¶

趣旨 ¶

招待講演：日本語の作文および対話性能向上のための合成データ生成と大規模言語モデル「Tanuki」の構築¶

タイムテーブル ¶

スケジュール ¶

発表募集要項 ¶

募集する発表内容 ¶

日本語データセットの構築と公開 ¶

大規模言語モデルの構築と公開 ¶

日本語自然言語処理の研究開発と産業応用 ¶

発表資料の事前提出について ¶

発表方法 ¶

発表種別 ¶

一般発表 ¶

ライトニングトーク ¶

発表申込期間 ¶

一般発表 ¶

ライトニングトーク ¶

発表資料提出期限 ¶

発表申込フォーム ¶

参加申込 ¶

提案者 ¶

新着情報

趣旨

招待講演：日本語の作文および対話性能向上のための合成データ生成と大規模言語モデル「Tanuki」の構築

タイムテーブル

スケジュール

発表募集要項

募集する発表内容

日本語データセットの構築と公開

大規模言語モデルの構築と公開

日本語自然言語処理の研究開発と産業応用

発表資料の事前提出について

発表方法

発表種別

一般発表

ライトニングトーク

発表申込期間

一般発表

ライトニングトーク

発表資料提出期限

発表申込フォーム

参加申込

提案者