NLP2024 Workshop on Japanese Language Resources (JLR2024)
言語処理学会第30回年次大会 併設ワークショップ JLR2024 - プログラム

JLR2024 プログラム

2024年3月15日(金) 9:30〜18:00
神戸国際会議場+オンライン中継のハイブリッド開催

公式アカウント@jedws
9:30-9:35
オープニング
12:30-13:30
昼休憩
17:40-17:50
クロージング
🎤 一般発表   ⚡ ライトニングトーク   💻 オンライン発表
(発表時間は当日の進行状況により前後することがあります)
全ての概要を開く

午前<1>
9:35-10:55  座長: 河原 大輔 (早大)

招待講演 🎙
LLM構築におけるインストラクションの効果と人間とGPT-4による評価で観察されたもの
9:35-10:35

講演者: 関根 聡 先生(理化学研究所革新知能統合研究センター・言語情報アクセスチームチームリーダー)
概要

GPTをはじめとする大規模言語モデル(LLM)が幅広い層から利用され、日本独自のLLMモデル構築にも興味が集まっている。我々はその中で重要なインストラクション「ichikara-instruction」を構築し、その効果を報告する。また、このインストラクションを利用して構築したLLMの出力に対し、人間による評価とGPT4を利用した評価を実施した。その比較分析とそこから観察されたものについて紹介する。発表時点では約1万のインストラクションが完成している予定であり、それを利用した実験から判明している事についても紹介する予定である。

講演資料

(準備中)

略歴

理化学研究所革新知能統合研究センター・言語情報アクセスチームチームリーダー。2024年4月からは情報学研究所LLM研究開発センター特任教授を兼任。1992年英国マンチェスター大学計算言語学部修士号。1998年ニューヨーク大学コンピューターサイエンス学部博士号取得後、1998年助教授、2007年准教授。パナソニック、ソニー、楽天などでの研究職を歴任。合同会社ランゲージ・クラフト創設。株式会社いちからにも参加。複数の企業の技術顧問も兼任。専門は自然言語処理。特に情報抽出、固有表現抽出、知識構築の研究に従事。

10:35-10:55
4択クイズを題材にした多肢選択式日本語質問応答データセットの構築
鈴木 正敏 (東北大/StudioOusia)
概要
資料
言語モデルが保持する実世界の事物に関する知識(世界知識)を評価するベンチマークとして、高品質な質問応答データセットは不可欠である。近年、日本語に特化した複数の大規模言語モデルが開発・公開されているが、それら日本語のモデルが持つ世界知識を評価するために利用可能な日本語による質問応答データセットは少なく、日本語の自然言語処理研究の進展を遅らせる要因となっている。そこで我々は、日本語の質問応答データの題材として、国内のクイズ大会で実際に使用された4択クイズの問題を用い、日本語の多肢選択式の質問応答データセットを構築した。本発表では、構築したデータセットの特徴について紹介するとともに、データセットを用いて既存の日本語大規模言語モデルを評価した実験の結果について報告する。

午前<2>
11:10-12:30  座長: 松田 寛 (Megagon Labs)

11:10-11:35
質問回答データセットを用いたPrompt TuningからFine Tuningへの移行時期推定
久保 隆宏 (アマゾンウェブサービスジャパン),呉 和仁 (アマゾンウェブサービスジャパン),前川 泰毅 (アマゾンウェブサービスジャパン)
概要
資料
企業で生成 AI をサービスに組み込む場合、 ChatGPT や Claude といった高精度かつ API 経由で利用できる基盤モデルがしばしば選択される。この場合、顧客の望む応答をするようカスタマイズするには Prompt Tuning が主な手段となる。しかし、サービスの提供が継続しデータが蓄積されるにつれ、1 枚の GPU に乗る数十億程度のオープンソースのモデルを Fine Tuning (Instruction Tuning) することで同等の精度より安価に実現できる可能性が高まる。本発表では、質問回答のデータセットである JSQuAD を用いて Few-shot を用いた Prompt Tuning よりも Fine Tuning のほうが高精度、また安価になる移行点の存在と必要なデータ量を検証する。これによりオープンソースモデルの産業応用を企図する方が必要なデータ量を見積もる目安を提供する。
11:35-12:05
Data processing for Japanese text-to-pron models
Gleb Mazovetskiy (Google), Taku Kudo (Google)
概要
資料
Japanese text-to-pronunciation modelling is a notoriously data-intensive problem. Japanese data sources are often only partially annotated, and use different annotation standards for pronunciation and word segmentation. This talk introduces a set of techniques that enable ingesting data that may be partially annotated, use arbitrary word segmentations, and use a variety of pronunciation annotation standards. These techniques have been used at Google since 2020 for text-to-speech and other tasks.
12:05-12:30
日本語埋め込みモデル評価ベンチマークの構築
Shengzhe Li (SB Intuitions), 大萩 雅也 (SB Intuitions), 李 凌寒 (SB Intuitions)
概要
資料
本発表では,日本語埋め込みモデルを評価用に構築した新たなベンチマーク,JMTEB (Japanese Massive Text Embedding Benchmark) を紹介する。埋め込みモデルは,類似文検出,クラスタリング,情報検索など幅広く応用でき,様々な応用先を見据えた多面的な性能評価が必要となる。英語においては,MTEBという埋め込みモデルの評価ベンチマークが存在しているが,日本語では,そのような統一された評価ベンチマークはまだ確立されていないため,モデルの性能分析,及びモデル間の比較が困難である。本発表では,公開データセットを広範に収集し,日本語埋め込みモデルの評価ベンチマークJMTEBを構築した。JMTEBは現在,できるだけ多面的に評価を行うため,五つの異なるタスクをカバーしており,それぞれのタスクには異なるドメインのデータセットが複数含まれている。また,全てのデータセット,及び再現性と利便性に配慮した評価スクリプトを公開する。本評価基盤が,性能の高い日本語埋め込みモデルの構築の促進に資することを期待している。

午後<1>
13:30-15:00  座長: 浅原 正幸 (国語研)

13:30-13:55
情動的知能資源としてのリアクション絵文字
砂岡 和子 (早大) 💻
概要
資料
大規模言語モデルの言語資源は,ヒトが書いたり話した言語テキストを中核に構築が進む.本発表は,昨年第29回年次大会(NLP2023)併設の同名ワークショップにおいて,Zoomと併用のプラットフォーム「Slack」上で使用されたリアクション絵文字に注目し,その言語テキストと伴奏する情動的知能および社会的知能の認知プロセスについて初歩的分析結果を報告する.上記「Slack」で使用されたリアク文字は100種類以上,回数は延べ1500回を超え,参与者間の活発な情動的・社会的インタラクションを観察できる.分析では,各コミュニケーション用途に応じ5種に分類し,それぞれの出現頻度と言語テキストとの相関を探索した.今後,「汎用性ある智能」を構成するには,言語テキスト以外に,リアク文字のような新しい言語パターンと表現を言語処理の俎上に載せ,言語資源の源泉に加えることで,より自然で柔軟なインタラクションを生成してゆくことが期待される.
13:55-14:15
日本語比喩表現の収集
加藤 祥 (目白大), 菊地 礼 (国語研), 浅原 正幸 (国語研)
概要
資料
日本語比喩表現の実態調査を目指し,既存の比喩用例集(中村 1977)のデータベース化(加藤・浅原 2023),広義の比喩指標の抽出(加藤・浅原 近刊)を進めてきたほか,Metaphor identification protocol(MIP, Pragglejaz Group 2007)に基づく『現代日本語書き言葉均衡コーパス』(BCCWJ)に対して網羅的に比喩情報の付与を行ったBCCWJ-Metaphor(加藤・菊地・浅原 2022)を構築している。比喩表現の判定や抽出と一般的な日本語母語話者による比喩表現の認識の差異を報告する。
14:15-14:35
日本語指標比喩のデータセットの紹介とその活用
菊地 礼(国語研)
概要
資料
本発表は発表者らが構築した「『現代日本語書き言葉均衡コーパス』に基づく指標比喩データベース」を紹介し、その活用方法について述べる。比喩表現は収集の難しい言語表現であり、これまで限定的な資料や作例に基づいて議論されてきた。そこでより広く日本語比喩表現の実態を明らかにするために、『現代日本語書き言葉均衡コーパス』(BCCWJ)コアデータ6レジスタ(Yahoo! 知恵袋・白書・Yahoo! ブログ・書籍・雑誌・新聞)1,290,060 語から人手で指標比喩(≒直喩)を収集した。指標比喩用例には、喩辞・被喩辞とその意味情報を付与した。それらに加え、擬人化・擬物化・擬生化・具象化などの追加の種別情報も付与した。本発表では、実証的な比喩研究の資源となる本データセットの概要と付与している情報を具体的に紹介する。また、本データセットを用いることによって可能となる分析事例を紹介する。
14:35-15:00
レトリック言語資源整備の戦略
伊藤 薫 (九大)
概要
資料
大規模言語モデルの登場以降、NLPにおける課題は推論や一貫性、実世界グラウンディングなど高次の言語使用に移りつつある。高次の言語使用にはレトリックも含まれるが、一部の修辞技法を除いて言語資源はほぼ未整備の状態である。本発表では、国内外における言語資源の整備状況を概観した後、資源構築に関わる困難と、NLPの動向と使用者層を考慮した構築戦略について述べる。資源構築における困難の原因の一部として、形式的に検索できない現象が多い、修辞学における用語の定義が文献によって異なる、修辞表現の認定に知識を要する、等が挙げられる。これらはレトリックの言語資源に多大なコストがかかることを意味する。使用者層はNLP研究者の他、人文系研究者、Webを介した一般利用が考えられる。fine-tuningやprompt engineeringが話題になり、辞書の定義文なども機械学習に使われる現状では、人間も機械も読むことができる小規模レトリック言語資源の価値が上昇していると思われる。

午後<2>
15:15-16:25  座長: 久保 隆宏 (アマゾンウェブサービスジャパン)

15:15-15:20
位置情報・経路情報共有のためのテキストデータベース
川端 良子 (国語研), 大村 舞 (国語研), 小西 光 (Tecca合同会社), 浅原 正幸 (国語研), 竹内 誉羽 (HRI)
概要
資料
本研究では、位置情報・経路情報を共有するために必要なテキストを収集した。具体的には、地図を刺激として周りにある相対位置情報表現を用いて位置・経路を記述する課題をクラウドソーシング調査として設定し、地図上の1地点を説明する表現(位置情報表現)と、地図上の2地点の移動経路を説明する表現(経路情報表現)を収集した。表現の観点を整理するとともに、それぞれの表現のわかりやすさについてもクラウドソーシングを用いて収集した。
15:20-15:25
農研機構における農業用生成AI構築の取り組み
桂樹哲雄 (農研機構), 小林 暁雄 (農研機構), 坂地 泰紀 (北大)
概要
資料
農研機構では、内閣府「研究開発と Society 5.0 との橋渡しプログラム(BRIDGE)」の施策の一つである農林水産省実施施策「AI 農業社会実装プロジェクト」において、農業指導技術者・普及者の減少を補うためのAI 技術の確立を目指している。本プロジェクトでは、普及員指導員による営農支援を補助するために、農業ドメインのドキュメントを収集、知識モデルを構築し、それらを用いて大規模言語モデルを構築する。本LTでは、この取り組みについて紹介する。
15:25-15:30
闘病記ブログから患者の医療イベントをインクリメンタルに要約したデータセット
矢田 竣太郎 (NAIST), 荒牧 英治 (NAIST)
概要
資料
闘病記ブログに執筆された患者の医学的経過を,手術や投薬等の医療イベント単位で箇条書きに要約するタスクのためにデータセットを構築した.ユーザごとに,ブログの各記事に対し,それ以前の全記事からわかる医療イベント要約を付与しており,個別記事中の医療イベントだけでなく執筆時点で最新の患者経過がわかるのが特徴である.この形式を活用してモデルを訓練すれば,履歴や記憶を重視させることができるのではと考えており,紹介を兼ねてご意見を伺いたい.
15:30-15:55
LLM学習用QAデータセットの自動構築手法の提案
飯塚 康太 (フィックスターズ), 吉藤 尚生 (フィックスターズ)
概要
資料
ドメイン知識を獲得したLLMを構築するための手法の一つとしてファインチューニングがある。ファインチューニングで有用なモデルを構築するには高品質なデータセットを利用することが重要だが、良いデータセットを人力で作るには多大な手間がかかる。この問題を解決するため、本研究では、LLM を活用したデータセット構築の自動化パイプラインを実装した。これを利用して実際に、プログラミング言語のリファレンス文書を入力として自動的に質問回答のデータセットが作成できることを確認した。さらに、モデル・プロンプト・温度パラメータによる出力データセットの違いを点数付けして評価した。これらの実験結果から、 LLM を利用してデータセットを構築する際には、単にリーダーボード上で評価が高いモデルを使うだけではなくプロンプトなど設定を変えて評価すべきであることを確認した。本発表では、パイプラインの実装と生成データセットの評価の詳細について報告する。
15:55-16:25
対話の楽しさの評価に向けた日本語応答生成ベンチマークの構築
水上 雅博 (NTT), 杉山 弘晃 (NTT)
概要
資料
近年のLLMの発展に伴い,さまざまな場面でLLMが活用されている.その活用先の一つに対話システムがある.LLMを用いた対話システムとしては,タスク対話やQAを行うAIアシスタントが主流であるが,対話を通して楽しさを提供する雑談対話システムの需要もある.一方で,LLMの評価において,ほとんどのベンチマークが客観性・事実性・簡潔性を評価しており,雑談対話の楽しさを評価する枠組みは知られていない.そこで,本研究では,対話の楽しさを評価するためのベンチマークを提案し,現在利用可能なLLMを評価した結果を報告する.

午後<3>
16:40-17:25  座長: 大村 舞 (国語研)

16:40-17:00
『昭和・平成書き言葉コーパス』の公開と研究利用 ―著作権処理をしないコーパスの可能性―
髙橋 雄太 (明治大), 相田 太一 (都立大), 近藤 明日子 (東大), 間淵 洋子 (和洋女子大), 小木曽 智信 (国語研) 💻
概要
資料
本発表では2023年5月に公開した『昭和・平成書き言葉コーパス』(SHC)の設計と各種統計情報の公開とその利用例について説明する.SHCは1933年から2013年までの8年おきの11カ年分,約3340万語を収録した通時コーパスである.現代語のコーパスの公開のためには著作権処理が必要となり,このコストが大きな課題となっていたが,平成30年の著作権法の改正を受けて,SHCでは著作権処理を行わないコーパスの設計・公開方法をとった.具体的には,用例検索で表示される文脈長を短く制限することによって,テキストの思想や感情の享受を目的としない「軽微」な利用にとどめる工夫を行った.このほか,投書欄や俳句・短歌などの短い著作物には全文が閲覧できるため伏字処理を行った.SHCでは全文テキストを公開できない代わりに,語数表・語彙表,n-gram頻度形式とSVMlight形式の共起情報などの統計情報を各種公開しており,昭和平成期の通時的変化やレジスター差の計量的研究が期待される.
17:00-17:05
『分類語彙表』の多義語の意味増補のための『IPAL』用言例文への番号付与
柏野 和佳子 (国語研), 大阿久 志緒理 (所属なし) 💻
概要
資料
『分類語彙表 ―増補改訂版―』(国立国語研究所, 2004年)は、初版(約3万7千語)から増補版(約9万6千語)を作成する際に、基本的な多義語は多重分類されたが、意味に不足がみられる。そこで、情報処理振興事業協会(IPA)GSK配布版『計算機用日本語基本辞書IPAL―動詞・形容詞・名詞―』(2007年)に収録されている用言の例文に『分類語彙表』の番号を付与することで不足する意味を調査している。その結果と問題点を報告する。
17:05-17:10
分類AIの学習データ構築
佐藤 奈穂子 (株式会社リコーデジタル戦略部デジタル技術開発センター 言語AI開発室)
概要
資料
弊社では2021年に「仕事のAI」シリーズを上梓し、BERTによるAI分類ツールの学習データを構築してきた。以来、トライアル顧客のデータの解析に取り組み、顧客の保有テキストデータは実に様々であり相応のクレンジング処理が必要であること、精度向上に効果的な分類のための学習データの開発には顧客データの深い解析が不可欠であることを認識している。弊社が当たってきた顧客のデータと、それらのクレンジング、顧客の目的に沿った分類カテゴリ獲得のためのデータ解析の一例、各カテゴリ毎の学習データ構築手法を紹介する。
17:10-17:15
症例テキストのアノテーションに用いるオントロジーの課題
土肥 栄祐 (国立研究開発法人国立精神神経医療研究センター神経研究所), 高月 照江 (情報システム研究機構ライフサイエンス統合データベースセンター), 建石 由佳 (国立研究開発法人科学技術推進機構NBDC事業推進部), 藤原 豊史 (情報システム研究機構ライフサイエンス統合データベースセンター), 山本 泰智 (情報システム研究機構ライフサイエンス統合データベースセンター)
概要
資料
症例テキストへのアノテーションには、Human Phenotype Ontology(HPO)が用いられる。大規模言語モデルの使用にて、症状・所見の抽出は十分に可能となったが、HPOによるアノテーションは難しい。原因として、①用語がないのか?②アノテーション機能が不足しているのか?2つの可能性が考えられるが、HPO内に用語があるのか無いのかを確認することは困難である。本発表では、HPOを理解し易くするための取り組みについて述べる。
17:15-17:20
学術論文のPDF文書からのテキスト抽出における課題
福田 健人 (放送大学)
概要
資料
近年のLLM開発では、Web上のHTML文書を広範にクロールした大規模コーパスを学習データとして用いることが多い。このような文書はテキスト抽出が容易であるものの、文章の品質には大きなばらつきがある。一方で、PDF文書は一般にテキスト抽出が困難であるが、学術論文・報告書・行政文書などの高品質なテキストデータの配布に用いられることが多い。本LTでは、特に日本語の学術論文のPDF文書を処理対象として、大規模言語モデルのための学習データを抽出する際の課題について紹介する。
17:20-17:40
テキストに対する印象評定データベース
浅原 正幸 (国語研), 加藤 祥 (目白大)
概要
資料
テキストを解析するにあたって、その言語構造のアノテーションが求められていた。一方、テキストを生成するにあたっては、その言語がどのように受容されるかの情報が求められる。言語の受容過程を記録するために、テキストを刺激とした眼球運動データや脳活動データの収集が進められている。しかしながら、これらのデータのみでは、なぜそのような眼球運動・脳活動に至ったかを直接的に説明することができない。本研究では、文脈中の単語・文節単位にその表現からどのような印象を受けるかのアンケート調査を行った。具体的には、自然さ (naturalness)・わかりやすさ (understandability)・古さ (obsoleteness)・新しさ (innovativeness)・比喩性 (figurativeness) の5つの観点について、0-5 の評定値を収集し、集計を行った。本発表では、このデータベースの可能性について示す。

トップに戻る