NLP2022 Workshop on Japanese Evaluation Dataset (JED2022)
言語処理学会第28回年次大会 併設ワークショップ JED2022

日本語における評価用データセットの構築と利用性の向上

2022年3月18日, オンライン開催

Twitterハッシュタグ#JED2022
公式アカウント@jedws

JED2022ワークショップスポンサー

What's New

2022.03.18 ワークショップは終了しました.沢山の方々のご参加ありがとうございました!

また今後も様々なイベントを開催していく予定です.公式Twitterアカウント@jedws などをご覧ください.

NLP2023 OKINAWAに合わせ,JED2023の開催を目指しています.来年は沖縄科学技術大学院大学(OIST)でお会いしましょう!

趣旨

言語処理学会第28回年次大会(NLP2022) 併設ワークショップ - 日本語における評価用データセットの構築と利用性の向上(JED2022) 日本語NLP技術の性能評価のためのデータセットが近年いくつか公開されているが,他の言語と比べると基本的なタスクが不足しており,日本語NLPの迅速な発展を阻害する要因となっている.英語などのデータセットを日本語に翻訳するアプローチもあるが,翻訳プロセスに由来するアーティファクトや文化の相違に起因するバイアスにより品質劣化が生じる場合が多いため,最初から日本語で構築したデータセットが増えていくことが望ましい.

本ワークショップでは,日本語における評価用データセットの構築手法そのものに加えて,データセットの公開方式・利用性の高い著作権設定・タスクの複合化といった応用を容易にするための研究を集めて議論することで,日本語データセット公開の流れを加速し,日本語NLP業界全体のさらなる発展および生産性向上につなげていきたい.

また,データセットによる評価の対象として利用されることが多い事前学習モデルについても,その構築過程で得られたノウハウを共有しデータセット構築に活用するためのセッションを設けて議論を深めることで,日本語データセットと事前学習モデルの相補的な発展につなげていきたい.

特別講演: 日本語データセットの構築・利用・公開に関する法的整理

講演者: 柿沼太一 先生(弁護士, STORIA法律事務所
概要

日本語データセットの構築・利用・公開を適法に行うためには,法令上の制限及び契約・ライセンスの問題をクリアにする必要があります.前者については著作権法と個人情報保護法制が主として問題となり,後者については当該データセットに付されているライセンスの解釈の仕方,あるいはご自身が作成されたデータセットを公開する際にどのような条件で公開すべきかが問題となります.本講演においては,それらの問題の全体像についてご説明すると共に,よく問題となるケースについてもできるだけ具体的に説明をいたします.日本語データセットの構築と利用性の向上の一助になればと思います.

略歴

専門分野はスタートアップ法務及びデータ・AI法務.現在,様々なジャンル(医療・製造業・プラットフォーム型等)のAIスタートアップを,顧問弁護士として多数サポートしている.経済産業省「AI・データ契約ガイドライン」検討会検討委員(~2018.3).日本ディープラーニング協会(JDLA)有識者委員(2020.5~).「第2回 IP BASE AWARD」知財専門家部門グランプリを受賞(2021).

プログラム

プログラムの詳細はこちらから

9:00-9:10 オープニング
9:10-10:35 日本語評価用データセットの構築と公開(1)
10:45-12:00 日本語評価用データセットの構築と公開(2)
12:00-13:00 昼休憩
13:00-14:20 特別講演: 日本語データセットの構築・利用・公開に関する法的整理
14:30-15:20 リーガル分野におけるデータセット構築・利活用の現状と展望
15:30-17:00 日本語評価用データセットの構築と公開(3)
17:10-17:35 リレートーク: 形態素解析辞書・統語解析データセットの公開
17:35-18:00 総合討論・クロージング

参加申し込み

ワークショップは開催終了しました.

言語処理学会第28回年次大会(NLP2022)へ参加登録することで,当ワークショップにもご参加いただけます.

発表募集要項

発表募集は終了しました.

発表募集要項の詳細はこちらから

NLP2022 Slack チャンネル

NLP2022参加者限定Slackワークスペースで、当ワークショップのチャンネルを用意しています.ぜひご参加ください.

#32-workshop2-日本語における評価用データセットの構築と利用性の向上

Slackへの参加方法

  1. NLP2022参加者限定サイトへアクセス(認証情報はメールで送付されています: 参考
  2. 参加者限定サイトのにある「Slackワークスペース招待リンク」からNLP2022 Slackへ参加
  3. Slackチャンネル「#32-workshop2-日本語における評価用データセットの構築と利用性の向上」へ参加

スケジュール

提案者

問い合わせ先 jed2022 (at) googlegroups.com