言語処理学会 (NLP2023) 参加レポート

先日 3/13~3/17 に沖縄コンベンションセンター(およびオンラインのハイブリッド)にて、国内最大級となる自然言語処理の学会 言語処理学会第29回年次大会(NLP2023) が開催されました。

技術動向の把握や参加者間の交流のため、弊社はゴールドスポンサーとして本大会に参加しました!

本記事では、本大会の参加レポートと、弊社の NLP チームが注目した論文について紹介します。

言語処理学会年次大会について

言語処理学会年次大会は、自然言語処理および関連領域に携わる研究者や学生が研究成果発表の場として、また国際的な研究交流の場として集う大規模な学会です。

本大会は 4 年ぶりの現地開催で、全参加者は 1828 人、発表論文は 579 件と過去最多となりました。

研究発表に加えて招待公演やワークショップなども開催されるほか、近年急速な発展を遂げている「大規模言語モデル」に対する自然言語処理研究の見解などを議論する緊急パネルも開催され、本大会は特に関心を集めました。

緊急パネル「ChatGPTで自然言語処理は終わるのか?」 [概要]

近ごろ ChatGPT (OpenAI)、文心一言 (Baidu)、Bard (Google)、Bing (Microsoft)、LlaMa、Stable Chat (Stability AI) のような大規模言語モデルを用いた生成 AI の登場によって、ヒトと計算機の conviviality に向けた様々な議論が行われています(参考:東京大学による生成AIへの見解東北大学による生成 AI 利用に関する留意事項)。そんな中、本大会ではブレイクスルーを起こした大規模言語モデルの一つである ChatGPT について、言語処理という研究の側面から有識者の方々による緊急パネル「ChatGPT で自然言語処理は終わるのか?」が開かれることとなりました。また少し話がそれますが、同時期に Microsoft ドイツ法人 CTO の Andreas Braun 氏が「来週中(言語処理学会開催期間中)に GPT-4 が公開されるだろう」と述べたことで、本大会でも緊急パネルに対する期待が一層膨らんでいたことと思います。

本パネルセッションでは、鈴木教授(東北大学)が ChatGPT のファクト調査結果を会場の参加者と共有されるところからはじまり、「終わる側(終わると断言している訳ではない)」から黒橋教授(京都大学)、「終わらない側」 から谷中講師(東京大学)、ビジネス・研究サイドから佐藤さん(LINE株式会社)、相良さん(株式会社バオバブ)がそれぞれ議論の提起を行いました。筆者の雑感としては「(1) ChatGPT は旧来の自然言語処理を揺るがすほどのブレイクスルー(災害)である。(2) 人間や社会に一層寄り添う研究が推進されるであろう自然言語処理のあり方を見つめ直すいい機会である。(3) ChatGPT について明らかにされていないことも多い。(4) むやみに嫌悪せず、従来の研究テーマと併せてより良い向き合い方を模索することが重要である。」といったまとめになります。

学会期間中には GPT-4 も発表され、司法試験の模擬試験の合格米国医師免許試験(USMLE)の合格、また アノテーションタスクにおいてクラウドワーカーよりも優れた結果を示した といったインパクトを与えています。しかし、これらのインパクトと同時に prompt injectionhallucination などの問題点や、知的財産等の法規制(関連:STORIA法律事務所ブログ)の問題もしばしば議論の対象とされています。

ビジネスにおいて大規模言語モデルを活用する際は、これらの問題を正しく理解し対処のための策を講じる必要があり、我々開発者はリテラシーを高く保ちつつ ChatGPT などの大規模言語モデルをあくまで解決手段の一つとして手札に加えることになるかと感じています。また生成 AI のユースケースについて Turovsky 氏が “Barak Turovsky+’23 – Framework for evaluating Generative AI use cases / Linkedin” で述べているように、顧客のタスクに対して (1) ストーリー性 (2) 正確性 (3) リスク といった複数の観点から正しく要望を理解し、制約条件や指示をロジカルに言語化する能力もこれまで以上に必要になると感じています。弊社でも自然言語処理における事業推進を考える上で、ChatGPT などの大規模言語モデルの活用について、より前向きに検討を加速していきたいと思っております。

(余談)近年の ChatGPT 等の利用について @bentossell さんが以下の風刺画をツイートされており面白かったので紹介いたします。ChatGPT のような大規模言語モデルを以下のように使用することが悪いとは一概に言えませんが、今後はより一層、情報の信頼性や参照が重要視されていくため、正しい使い方をしていきたいですね。

聴講内容の紹介 [予稿集]

今回聴講した中で特に印象深いと感じた研究を紹介いたします。

Q9-3 On the Bias of CLIP for Object-Attribute Recognition [paper]

Yutaro Yamada (イェール大), Yingtian Tang (ペンシルバニア大), Ilker Yildirim (イェール大)

CLIP と呼ばれるモデルは、近年 Vision-and-Language において広く利用されているモデルの一つです。特にゼロショットのテキスト画像検索において既存研究を大きく凌駕し話題となりました。また対照学習により視覚情報と言語情報を効果的に関連づけることから、Stable Diffusion のような画像生成モデルにも使用されています。しかしながら (1) Typographical Attack(Noever+’21) (2) 言語情報を正しく読解できない(Shen+’22) (3) 画像中の複数の物体を考慮することが難しい(Zhong+’22; Yao+’22)などの問題が挙げられます。CLIP は非常に強力なベースラインモデルである一方で、業務上での使用ではこうした問題点を正しく把握する必要があると感じており、本論文はこれらに加えて CLIP の物体および属性情報に関する問題を提示しています。

概要

Concept Association Bias

CLIP を用いて “In this picture, the color of the lemmon is [mask].” という穴埋めを解くと、レモンのみの画像からは “yellow” と予測できるが、レモンとナスが写った画像に対しては “purple” と予測してしまう。つまり CLIP では画像中に複数の物体が含まれている場合に、テキスト中で一方の物体の情報(レモン)が言及されると、もう一方の物体の情報(ナス)について言及するような Concept Association Bias(CAB)が働く。物体の情報(物体とその属性値)は bag of concept (boc) として捉えることができ、上画像では “(レモン, yellow)” および “(ナス, purple)” という boc が考えられる。そのため CLIP は CAB によって、テキスト中に言及されたレモンの boc の属性値である “yellow” ではなく、もう一方の boc の属性値である “purple” を答えてしまう。

物体と属性値の関連を断ち切って、色の情報をランダムに置換した(つまりレモンの色を赤色に置換して、”(レモン, yellow)” の boc を断ち切った)場合に同様のタスクを行うと、CLIP の予測結果に置換後のナスの色を答えるというバイアスが発生しないということが明らかになった。

所感

CLIP のバイアスに対する大変興味深い調査で胸が高まり、前述した (1) Typographical Attack についても CAB と同様のバイアスが働いているのではないかと著者の山田さんと議論を交わしました。また前述した (2) 言語情報を正しく読解できない (3) 画像中の複数の物体を考慮することが難しい、といった問題でも議論にされていますが、学習時のデータ形式(CLIP では alt テキスト等を学習に使用しておりアノテーションが顕現性に依存していることから CAB が発生している可能性がある)や学習方法(CLS トークンを用いたグローバルな特徴を使用しているため、CAB が生じやすい)などが CAB に依存しているんですかね…。個人的に RegionCLIPFILIP といったモデルについてどのような予測結果になるのか気になりました。文書検索についても同様で、複数観点を考慮した学習方法などが提案されているため(Wu+’22; Zhang+’22)、こうした学習方法に基づくモデルについても CAB がどの程度発生するのか気になるところです。

(筆者:宮脇)

A4-1 Contrastive Learning を利用した類似特許検索 [paper]

星野雄毅 (東工大), 内海祥雅 (楽天), 中田和秀 (東工大)

弊社が相談を受ける案件の中でも、特許や自社データのような専門ドメインに特化した文書に対する検索案件が散見されます。こうした専門ドメインの文書にはドメイン特有の固有表現を多く含むため、オープンソースモデルの単純なファインチューニングでは適用が困難であるという問題が挙げられます。例えば de-facto standard な contrastive learning を用いた文書検索モデルの一つとして DPR が挙げられますが、ロングテールなエンティティや未知のドメインに対して脆弱であるということが知られています(Sciavolino+’21; Wang+’22; Li+’21)。こうした問題について、ユニグラム言語モデリングによるトークナイザを用いて BERT の学習を行った点、contrastive learning におけるハード負例として国際特許分類(IPC)を考慮したサンプリング方法を提案している点が非常に興味深いと感じました。

概要

知的財産における特許は膨大な時間をかけた審査が人手によって行われており、robotic process automation の側面から、類似特許検索は非常に重要なタスクの一つとされている。本研究では、特許文書の請求項の truncate を抑制することを目的として、約 45 万件の特許文書を用いてユニグラム言語モデリングによるトークナイザを用いて BERT の事前学習を行い、約 10 万件の特許文書を用いて SimCSE によるファインチューニングを行なっている。なお検索時の正例は特許審査過程の引用情報を用いており、ハード負例には同一の IPC 要素を持つ事例を選択している。

所感

専門ドメインに対する contrastive learning による検索モデルとして大変興味深い内容で、定量・定性・アブレーション評価と丁寧な実験結果を示されていてとても嬉しい気持ちになっていました。特にハード負例の作成方法および IPC の階層別精度評価が大変面白いと感じました。ベースラインに比べて提案モデルの検索性能が上回る結果を示しているものの、Recall@10 による検索精度が 0.50~0.60 pt というのが実応用上では改善の余地があるということで、今後の進展がとても楽しみです!

(筆者:宮脇)

A4-1 日本語 Tokenizer の違いは下流タスク性能に影響を与えるか? [paper]

藤井巧朗 (横国大), 柴田幸輝 (筑波大), 山口篤季, 十河泰弘 (日立)

計算機が日本語を扱うようにするためには、文章を特定の意味単位に分割する必要があります。日本語を対象言語としたタスクを解く場合、文の分割方法についてどれを使用するべきか選択に迫られることがあります。論文中にも言及されていますが、これまで統一的な実験設定で複数の分割手法に対して体系立てられた比較調査、および JGLUE (日本語言語理解ベンチマーク)を用いた比較調査は行われていませんでした。本研究では比較調査のために注意深い実験設定が行われていることに加え、分割されたトークン辞書に対して興味深い考察を行っていることから、本論文を紹介させていただきました。

概要

本研究では 6 つの日本語形態素解析器(形態素解析器なし、MeCab、MeCab+NEologd、Jumann++、Sudachi、Vaporetto)と 3 つのサブワード分割手法(BPE、WordPiece、Unigram)の計 18 通りの組合せについて、統一的な実験設定で事前学習、およびファインチューニングを実施する。下流タスクとしては MARC-ja(感情極性分類)、JSTS(2文の類似度推定)、JNLI(含意関係認識)、JSQuAD(抽出型質問応答)、JCommonsenseQA(選択肢付き質問応答)、NER(固有表現抽出)、UD(構文解析)の 7 つを対象とする。実験の結果より、形態素解析器を使用することで 2.0pt 程度の精度向上を示したほか、分割手法間で大きな性能差が見られないことを示した。またトークナイザ辞書の重複率(類似度)と性能差をプロットしたところ、トークナイザ辞書が類似するほど下流タスクへの性能差が小さくなることを示した。

所感

筆者は論文に対して評価できるほどの身ではありませんが、18 の分割手法に対して注意深く比較調査をされている点で非常に素晴らしい論文だと感じました。また appendix にも記述されていますが、実験結果に対して WordPiece を用いた場合の性能低下に対する考察も納得感の高いもので大変勉強になりました。個人的に新語・固有表現を新たに追加した NEologd を用いた場合に性能向上が見られなかった点が非常に興味深いと感じており、NER および JSQuAD を解く上で NEologd に追加された知識があまり必要とされていないのか、データセットに特定のバイアスが作用しているのか(例えば表層情報のみでで解けるような設定になってしまっているのか、など)、それとも他に要因があるのか、などが気になりました。

(筆者:宮脇)

A5-4 ニューラル記号推論における推論過程の教示方法 [paper]

青木洋一, 工藤慧音 (東北大), Ana Brassard (理研/東北大), 栗林樹生 (東北大/Langsmith), 吉川将司 (東北大), 坂口慶祐, 乾健太郎 (東北大/理研)

大規模言語モデルでは、複雑な記号的推論も実現できているように思えます。 しかし実際に正しい推論を行えているのか気になっていました。 推論過程を出力に含めることは正しい推論を行えているのか確認するアプローチの一つとして有効ですが、複雑な推論問題などに対して、適切な推論過程があるのかを知りたいと思い、聴講しました。

概要

推論過程について出力戦略と推論戦略という2つの側面から、ニューラルモデルで形式的な推論を行う際の適切な推論過程の教示方法を探る研究です。 実験では、課題の難易度を推論の深さとし、人工データを用いた多段数値推論問題(例:A=1,B=3,C=A+3,C?)を各戦略で実施し、評価を行っています。 今回の実験設定範囲内では、ニューラルモデルによってほぼ完璧な推論が達成されていました。しかし戦略によって違いはあり、適切な戦略の選択が重要である事が示されています。

適切な推論戦略

  1. 段階的な出力:ステップ出力(推論1ステップごとに出力。元の入力に出力された推論を書き足して、処理を繰り返す。)
  2. 粒度の細かい推論:全探索経路、 後向き+最短経路
     ※ 粒度の細かい推論戦略をとることで、推論過程も含めて正しく生成(約100% の正解率)

所感

今回の実験で示された適切な推論戦略は、人間の直感的にも納得できる結果と思えました。 説明性の観点からも、推論過程においては、答えが正しいことよりも、各ステップで正しい推論を行えているか確認できることが重要と思います。 多少余分な推論を行うことになるとしても、「推論過程が正しく生成」できる戦略があるということは非常に嬉しい結果でした。 また、本発表とモデルのアーキテクチャが異なりますが、松本+’23 – C4-5 ニューラル数式ソルバーにおける途中結果の追跡と操作 では、「数値計算を学習した 6 層 Transformer の内部には、途中結果の情報が存在し、かつその情報はモデルの推論時にも使われている」 という内容で発表がありました。 仮に、推論ステップ時にモデル内部で正しく計算が行われ、また推論過程も正しく生成されるのであれば、言語モデルは推論を行うツールとして期待が持てるのではないかと感じています。 ニューラルネットワークの層数は有限でしかない以上、多くの推論ステップ数が必要となる問題などでは、ステップ出力のような戦略が必要になるかと思われます。 より複雑な推論問題でも、正しい推論過程が生成できるのか、今後も楽しみにウォッチしていきたいと思います。

(筆者:田代)

おわりに

過去最多かつ 4 年ぶりの現地開催でしたが、本大会の研究発表や招待講演、参加者間交流、沖縄の文化交流など、大変充実した大会となりました。言語処理学会大会委員・大会プログラム委員・大会実行委員の皆様、本大会に携わった皆様に感謝を申し上げたいと思います。

最後になりますが、弊社では 自然言語処理プラットフォーム – sente の他、商品レビューに対する可視化として レビュー分析ダッシュボード などを開発しております。

弊社の採用情報にご興味がある方は 弊社採用ページ をご覧ください。

著者:宮脇峻平,田代順一,柳瀬翔(データサイエンス部) [プロフィール]
最終更新日:2023.03.31

ShtockData

お問い合わせフォーム

お問い合わせ項目を選択してください