日本語言語資源の構築と利用性の向上言語処理学会第30回年次大会(NLP2024) 併設ワークショップ日時:2024年3月15日(金) 全日開催 | |
会場:神戸国際会議場(D会場(501) + サテライト会場: E会場(502))+オンライン中継のハイブリッド開催 |
新着情報
- 2024/03/15 ワークショップは終了しました。たくさんのご参加、ありがとうございました。
- 2024/03/11 発表資料・プログラム最終版公開
趣旨
自然言語処理における各種タスクのモデルを訓練、評価、分析するためには、注釈付きコーパスや大規模言語モデル(LLM)などの言語資源が必要不可欠である。 英語を中心に多くの言語資源が構築、公開されているが、日本語では多くない。 この状況は、日本語における自然言語処理の迅速な発展を阻害する要因となっている。
本ワークショップでは、日本語における言語資源の構築方法そのものに加えて、LLMなどのモデル構築方法、タスクの複合化、利用性を高めるためのライセンス設定など、言語資源の普及および応用を容易にするための研究について集中的に議論する。 これによって、日本語言語資源の構築、公開の流れを加速し、日本語自然言語処理のさらなる発展および生産性向上につなげていきたい。
招待講演:LLM構築におけるインストラクションの効果と人間とGPT-4による評価で観察されたもの
GPTをはじめとする大規模言語モデル(LLM)が幅広い層から利用され、日本独自のLLMモデル構築にも興味が集まっている。我々はその中で重要なインストラクション「ichikara-instruction」を構築し、その効果を報告する。また、このインストラクションを利用して構築したLLMの出力に対し、人間による評価とGPT4を利用した評価を実施した。その比較分析とそこから観察されたものについて紹介する。発表時点では約1万のインストラクションが完成している予定であり、それを利用した実験から判明している事についても紹介する予定である。
(準備中)
理化学研究所革新知能統合研究センター・言語情報アクセスチームチームリーダー。2024年4月からは情報学研究所LLM研究開発センター特任教授を兼任。1992年英国マンチェスター大学計算言語学部修士号。1998年ニューヨーク大学コンピューターサイエンス学部博士号取得後、1998年助教授、2007年准教授。パナソニック、ソニー、楽天などでの研究職を歴任。合同会社ランゲージ・クラフト創設。株式会社いちからにも参加。複数の企業の技術顧問も兼任。専門は自然言語処理。特に情報抽出、固有表現抽出、知識構築の研究に従事。
タイムテーブル
スケジュール
- 2023/11/18 (土) Webサイト公開
- 2023/12/12 (火) JLR2024 発表募集要項公開、JLR2024 一般発表・ライトニングトーク申込受付開始
- 2024/01/09 (火) 午前9時 NLP2024 参加登録受付開始
- 2024/02/13 (火) JLR2024 一般発表申込締切・NLP2024 参加事前登録締切
- 2024/02/20 (火) JLR2024 仮プログラム公開
- 2024/02/27 (火) JLR2024 ライトニングトーク申込締切
- 2024/02/28 (水) JLR2024 プログラム公開
- 2024/03/01 (金) NLP2024 参加直前登録受付開始
- 2024/03/08 (金) 正午 NLP2024 参加直前登録受付締切
- 2024/03/10 (日) JLR2024 発表資料提出期限
- 2024/03/15 (金) JLR2024 ワークショップ当日
発表募集要項
募集する発表内容
日本語のデータセットや大規模言語モデルなどの言語資源を構築されている方は、論文では語られない苦労話を含めて、構築に関する知見をぜひご発表ください。これから言語資源の構築を始めようとしている方には、その構築の狙いについてご発表をお願いします。また、自然言語処理に関する知識をお持ちかどうかを問わず、特定分野の日本語言語資源の必要性を伝えるご発表を歓迎します。さらに、日本語言語資源の充実にむけて克服すべき障壁や課題、そしてそれらの解決に向けたご提案も歓迎します。下記に内容の例を示しますが、これらにとどまらず様々な取り組みについてご発表をお待ちしています。
日本語データセットの構築と公開
- 日本語データセット構築における知見や問題点の共有
- データセットの公開方法に関する知見や問題点の共有
- 評価用データセットでの性能評価結果の共有
大規模言語モデルの構築と公開
- 大規模訓練データの整備
- 大規模計算資源の配分管理
- モデルの信頼性・透明性・安全性の確保
日本語自然言語処理の研究開発と産業応用
- 自然言語処理の現場で必要とされる日本語言語資源について
- 産業応用における強い需要がある日本語言語資源の共有
発表資料の事前提出について
- 発表資料を PDF 形式で事前に提出してください。
- 公開を希望しない場合を除いて発表資料は本サイトに掲載いたします。問題が生じる懸念がある場合には修正をお願いすることがありますのであらかじめご了承ください。
- 発表資料の著作権は発表者に帰属しますが、CC BY 4.0(Creative Commons Attribution 4.0 International License) で公開することに同意していただきます。
発表方法
- 一般発表・ライトニングトークを含む全てのセッションについて現地会場(神戸国際会議場)またはオンライン(Zoom)のどちらからでも発表できます。
- 現地会場・オンラインを問わず発表資料は発表者所有のPCからZoomで画面共有を行っていただきます。
発表種別
一般発表
- 発表15〜30分 + 質疑5分程度
- 発表申込時に発表者・タイトル・概要(400字程度)を提出してください。
ライトニングトーク
- 発表5分程度 + セッションの最後にまとめて質疑を行います。
- 発表申込時に発表者・タイトル・概要(200字程度)を提出してください。
※発表希望者多数の場合、一般発表からライトニングトークへの振り分けや不採択とさせていただく場合がありますので、予めご了承ください。
発表申込期間
一般発表
- 2023年12月12日(火)~2024年02月13日(火)
ライトニングトーク
- 2023年12月12日(火)~2024年02月27日(火)
発表資料提出期限
- 2024/03/10 (日)
発表申込フォーム
発表申込を締め切りました。
参加申込
本ワークショップは言語処理学会第30回年次大会(NLP2024)の併設ワークショップとして開催されます。 本ワークショップにおける発表・参加のためにはNLP2024に参加登録(有料)を行う必要があります。 NLP2024 の参加登録期間は、事前登録が2024/01/09〜02/13、直前登録は2024/03/01〜08正午、当日登録は2024/03/11〜15正午です。
提案者
- 浅原正幸 国立国語研究所
- 大村舞 国立国語研究所
- 河原大輔 早稲田大学
- 久保隆宏 アマゾンウェブサービスジャパン合同会社
- 坂口慶祐 東北大学
- 柴田知秀 LINEヤフー/SB Intuitions
- 松田寛 株式会社リクルート/Megagon Labs
- 宮尾祐介 東京大学
問い合わせ先 jlr2024 (at) googlegroups.com