日本語における評価用データセットの構築と利用性の向上
2022年3月18日, オンライン開催
JED2022ワークショップスポンサー
What's New
2022.03.18 ワークショップは終了しました.沢山の方々のご参加ありがとうございました!
また今後も様々なイベントを開催していく予定です.公式Twitterアカウント@jedws などをご覧ください.
NLP2023 OKINAWAに合わせ,JED2023の開催を目指しています.来年は沖縄科学技術大学院大学(OIST)でお会いしましょう!
趣旨
言語処理学会第28回年次大会(NLP2022) 併設ワークショップ - 日本語における評価用データセットの構築と利用性の向上(JED2022) 日本語NLP技術の性能評価のためのデータセットが近年いくつか公開されているが,他の言語と比べると基本的なタスクが不足しており,日本語NLPの迅速な発展を阻害する要因となっている.英語などのデータセットを日本語に翻訳するアプローチもあるが,翻訳プロセスに由来するアーティファクトや文化の相違に起因するバイアスにより品質劣化が生じる場合が多いため,最初から日本語で構築したデータセットが増えていくことが望ましい.
本ワークショップでは,日本語における評価用データセットの構築手法そのものに加えて,データセットの公開方式・利用性の高い著作権設定・タスクの複合化といった応用を容易にするための研究を集めて議論することで,日本語データセット公開の流れを加速し,日本語NLP業界全体のさらなる発展および生産性向上につなげていきたい.
また,データセットによる評価の対象として利用されることが多い事前学習モデルについても,その構築過程で得られたノウハウを共有しデータセット構築に活用するためのセッションを設けて議論を深めることで,日本語データセットと事前学習モデルの相補的な発展につなげていきたい.
特別講演: 日本語データセットの構築・利用・公開に関する法的整理
日本語データセットの構築・利用・公開を適法に行うためには,法令上の制限及び契約・ライセンスの問題をクリアにする必要があります.前者については著作権法と個人情報保護法制が主として問題となり,後者については当該データセットに付されているライセンスの解釈の仕方,あるいはご自身が作成されたデータセットを公開する際にどのような条件で公開すべきかが問題となります.本講演においては,それらの問題の全体像についてご説明すると共に,よく問題となるケースについてもできるだけ具体的に説明をいたします.日本語データセットの構築と利用性の向上の一助になればと思います.
専門分野はスタートアップ法務及びデータ・AI法務.現在,様々なジャンル(医療・製造業・プラットフォーム型等)のAIスタートアップを,顧問弁護士として多数サポートしている.経済産業省「AI・データ契約ガイドライン」検討会検討委員(~2018.3).日本ディープラーニング協会(JDLA)有識者委員(2020.5~).「第2回 IP BASE AWARD」知財専門家部門グランプリを受賞(2021).
プログラム
9:00-9:10 | オープニング |
9:10-10:35 | 日本語評価用データセットの構築と公開(1) |
10:45-12:00 | 日本語評価用データセットの構築と公開(2) |
12:00-13:00 | 昼休憩 |
13:00-14:20 | 特別講演: 日本語データセットの構築・利用・公開に関する法的整理 |
14:30-15:20 | リーガル分野におけるデータセット構築・利活用の現状と展望 |
15:30-17:00 | 日本語評価用データセットの構築と公開(3) |
17:10-17:35 | リレートーク: 形態素解析辞書・統語解析データセットの公開 |
17:35-18:00 | 総合討論・クロージング |
参加申し込み
ワークショップは開催終了しました.
言語処理学会第28回年次大会(NLP2022)へ参加登録することで,当ワークショップにもご参加いただけます.
発表募集要項
発表募集は終了しました.
NLP2022 Slack チャンネル
NLP2022参加者限定Slackワークスペースで、当ワークショップのチャンネルを用意しています.ぜひご参加ください.
- 発表の Zoom URL を、チャンネル説明およびピン留め書き込みとして共有しています
- 発表への質問 を、チャンネルで募集しています(Zoomのチャット機能は使用できません)
Slackへの参加方法
- NLP2022参加者限定サイトへアクセス(認証情報はメールで送付されています: 参考)
- 参加者限定サイトのにある「Slackワークスペース招待リンク」からNLP2022 Slackへ参加
- Slackチャンネル「#32-workshop2-日本語における評価用データセットの構築と利用性の向上」へ参加
スケジュール
- 2021/11/25 (木) JED2022 Webページ開設
- 2021/12/22 (水) スケジュール公開
- 2021/12/23 (木) 一般発表・ライトニングトーク申込受付開始
- 2022/01/11 (火) NLP2022事前参加登録受付開始
- 2022/01/21 (金) JED2022ワークショップスポンサー受付開始
- 2022/02/14 (月) 一般発表申込締切・NLP2022事前参加登録締切
- 2022/02/18 (金) プログラム公開・スポンサー受付終了
- 2022/02/28 (月) ライトニングトーク申込締切
- 2022/03/11 (金) 正午まで NLP2022直前参加登録締切
- 2022/03/14 (月) 発表スライド提出期限
- 2022/03/18 (金) JED2022 ワークショップ当日
提案者
- 浅原正幸 国立国語研究所
- 河原大輔 早稲田大学
- 久保隆宏 アマゾンウェブサービスジャパン合同会社
- 柴田知秀 ヤフー株式会社
- 高岡一馬 株式会社ワークスアプリケーションズ・システムズ
- 林部祐太 株式会社リクルート Megagon Labs
- 久本空海 株式会社Legalscape
- 松田寛 株式会社リクルート Megagon Labs
問い合わせ先 jed2022 (at) googlegroups.com