NLP2025 Workshop on Japanese Language Resources (JLR2025)
言語処理学会第31回年次大会 併設ワークショップ JLR2025

日本語言語資源の構築と利用性の向上

言語処理学会第31回年次大会(NLP2025) 併設ワークショップ

日時:2025年3月14日(金) 全日開催

会場:出島メッセ長崎+オンライン中継のハイブリッド開催

共催:国立国語研究所
   科学研究費補助金・基盤研究(A)「人知との融合による大規模言語モデルの大規模知識モデルへの進化」

Twitter公式アカウント@jedws

新着情報

趣旨

自然言語処理における各種タスクのモデルを訓練、評価、分析するためには、注釈付きコーパスや大規模言語モデル(LLM)などの言語資源が必要不可欠である。 英語を中心に多くの言語資源が構築、公開されているが、日本語では多くない。 この状況は、日本語における自然言語処理の迅速な発展を阻害する要因となっている。

本ワークショップでは、学習データや評価ベンチマーク、マルチモーダルデータセットなどの日本語言語資源の構築方法そのものに加えて、LLMなどのモデル構築方法や利用性を高めるためのライセンス設定など、言語資源の普及および応用を容易にするための研究について集中的に議論する。 これによって、日本語言語資源の構築、公開の流れを加速し、日本語自然言語処理のさらなる発展につなげていきたい。

招待講演:日本語の作文および対話性能向上のための合成データ生成と大規模言語モデル「Tanuki」の構築

講演者: 畠山 歓 先生(東京科学大学 物質理工学院 助教)
概要

GPT-4を始めとする大規模言語モデル(LLM)は社会的に大きなインパクトを与えた。LLMは産業や社会のインフラを支える基盤技術に成長する可能性があり、その構築手法に関する基礎的な知見を蓄積する取り組みには大きな意義がある。本発表では、優れた日本語の作文および対話性能を有する LLM をフルスクラッチで開発するための合成データ生成やモデル学習の取り組みについて紹介する。既存の LLM を用いて数百Bトークンに及ぶ合成テキストを生成し、その出力を学習させたモデル「Tanuki」を構築した。当日は学習データの詳細やモデル構築時の試行錯誤についても言及する。

講演資料

(準備中)

略歴

2018年3月 早稲田大学 博士(工学) 高分子合成と電気化学に関する研究

2018年4月 早稲田大学, 応用化学科, 講師(任期付)

2023年4月 東京工業大学(東京科学大学), 物質理工学院, 助教

2022年 高分子学会 高分子研究奨励賞

タイムテーブル

プログラムの詳細はこちらから

スケジュール

発表募集要項

募集する発表内容

日本語のデータセットや大規模言語モデルなどの言語資源を構築されている方は、論文では語られない苦労話を含めて、構築に関する知見をぜひご発表ください。これから言語資源の構築を始めようとしている方には、その構築の狙いについてご発表をお願いします。また、自然言語処理に関する知識をお持ちかどうかを問わず、特定分野の日本語言語資源の必要性を伝えるご発表を歓迎します。さらに、日本語言語資源の充実にむけて克服すべき障壁や課題、そしてそれらの解決に向けたご提案も歓迎します。下記に内容の例を示しますが、これらにとどまらず様々な取り組みについてご発表をお待ちしています。

日本語データセットの構築と公開

大規模言語モデルの構築と公開

日本語自然言語処理の研究開発と産業応用

発表資料の事前提出について

発表方法

発表種別

一般発表

ライトニングトーク

※プログラム編成の都合で、一般発表・ライトニングトーク間の種別や発表持ち時間が変更される場合があります。審査により発表が不採択となる場合があります。予めご了承ください。

発表申込期間

一般発表

ライトニングトーク

発表資料提出期限

発表申込フォーム

※発表申込は締め切りました。

参加申込

本ワークショップは言語処理学会第31回年次大会(NLP2025)の併設ワークショップとして開催されます。 本ワークショップの発表および聴講参加には言語処理学会第31回年次大会(NLP2025)への参加登録(有料)が必要です(言語処理学会会員である必要はありません)。 NLP2025 の参加登録期間は、事前登録が2025/01/08〜02/12、直前登録は2025/03/03〜07正午、当日登録は2025/03/10〜14正午です。

提案者

問い合わせ先 jlr2025 (at) googlegroups.com