海外の自然言語処理活用事例シリーズはこちらです。 Part.1Part.2Part.3Part.4Part.5

第四回 自動要約 ~時短効率化を目指して~

第三回では、文章分類の技術の中身と、ニュース分類や顧客分析への応用例を紹介しました。第四回では文章の内容を機械が要約して返す機能である自動要約について、活用事例と、2020年に開発されたばかりの最新アルゴリズム「PEGASUS」を紹介します。

自動要約とは

カバー画像

人間は複雑な文章データをすぐに理解するため意識的・無意識的に要約作業を行っています。例えば、何ページにもわたる白書をレポートでまとめるとき、顧客との電話で話を理解するときなど、ビジネスの現場でも要約する力は不可欠です。そんな要約作業、AIによってより「人間らしい」要約を返すモデルが生成しつつあるのをご存じでしょうか。「AIが文章の内容を認識し、自動で要約を返す」自然言語処理、自動要約の開発および実用化が進んでいます。

自動要約で採用されているアルゴリズムとして、抽出的要約と生成的要約があります。抽出的要約は文章から主要な単語・文章を抜き出し、換言などを行わずに要約を作成します。複雑なアルゴリズムは不要なため、自動要約の手法として主流となっている一方、要約後の文章で指示語や背景の説明不足が問題点として挙げられます。一方、生成的要約は内容を反映させつつ言い換えや短い表現を用い手文法的に自然な文章を生成する手法で、いわゆる人間が行う要約のイメージに近いです。しかし複雑なタスクが要求されます。

近年では、重要な文章を判別して部分的に強調するなど、人間が要約するための補助ツールとしての開発も進んでいます。そんな自動要約は、現代のビジネスにおいてどのように利用されているのか、その一部をご紹介します。

自動要約の応用事例

判例要約

新規システムやサービスを企画・開発する際、先行事例を研究し、参考にすることも多いのではないでしょうか。法律の世界でも基本は同じです。特にこれまで類を見ない事件・裁判について、法律の世界では、判決の参考および理由付けとして「判例」を用います。「判例」とは「最高裁判所が裁判の理由の中で示した法律的判断のうち、先例として事実上の拘束力を持つもの」と定義されます。例えば、「過去●●事件で最高裁判所はこのような理由で無罪判決を下した判例Xを根拠に、本事件において被告人は無罪とする」とのように、判決文を支持するための根拠として用いられます。当然使用できる根拠は多ければ多いほど客観的かつ有利なように主張を組み立てられるので、裁判官はもちろん弁護士・検察官などの法律にかかる専門家は、必要に応じて判例を読み、裁判において弁論立てて説得のための材料を探します。

LegalEdison社はカナダ・オンタリオ州トロント市に構える法務×テクノロジーを扱うスタートアップです。同社は、判例や法律文書にアクセスした際、文書を自動で要約するサービスを提供しています(詳細はLegalEdison – Automate Case Law Summarization(外部リンク)まで)。オンラインで文書のURLを入力すると、3秒程度で自動要約を行い、さらに要約結果を編集できます(図1)。法律を学ぶカナダの学生にはサービスを無料で提供しており、実際に利用した学生からは、「文書を読む時間が80%削減できた」「保守的な法務業界における時代の進歩である」との声が挙がっています。

判決文書を自動要約しています。 主体が客体に対して何をしたか、という内容を自動で集計します。 文書のキーワードを自動抽出し、素早い理解に貢献します。

図1:  LegalEdison使用画面イメージ。
(上)2020年のCMRRA-SODRAC社とAppleカナダ社の間で、音楽のアクセス許可について著作権法の観点から裁判となった際の判決文書を自動要約しています。
(中)主体が客体に対して何をしたか、という内容を自動で集計します。
(下)文書のキーワードを自動抽出し、素早い理解に貢献します。(写真はいずれもLegalEdison社デモ画面より引用)

自動要約によって文書を素早く理解することで、裁判準備にかける時間コストが削減でき、労働生産性向上が考えられます。一般企業においても、契約書や決算、規約など複雑な文書を使用する機会はありますので、そうした面での利活用に適用できる可能性があります。

他にもマーケティングのコンテンツ作成やキャッチコピー考案など、幅拾い業界での時短効率化が期待できる自動要約。実は、人間と思考・生成プロセスは大きく異なります。AIがどのようにして要約を作成しているか、最新のアルゴリズム「PEGASUS」をご紹介します。

最新のアルゴリズム”PEGASUS”

PEGASUS_logo

AIにとって要約という作業は、長文理解・情報圧縮そして生成といった複数のタスクを行う必要があるため、自然言語処理の中でも難しいタスクとされています。これまでの既存モデルは自然言語処理一般のための事前学習を行い、自然言語処理一般において高いパフォーマンスを出していました(例としてBERTなどをイメージしていただければと思います)。しかしGoogle社のエンジニアであるPeter Liu、Yao Zhao両氏は最終成果に近い形での事前学習を模索しました。即ち、「要約に必要なタスクだけに特化した事前学習をモデル化して事前学習を行えば、生成する要約の質が上がるのではないか」という仮説を出発点に検証が行われ、生成的要約に特化したモデル「PEGASUS」が2019年に開発されました。

BERTなどにおける文章要約のための事前学習においては、文章中に出現した単語の一部をマスキングし(隠し)、残りの単語を入力値とて、マスキングされた単語を予測するモデルを作成します。「この単語がないと文章の解釈が一意にできない」「この形容詞は別になくても大体悪い意味と予測は可能」などの結果を学習し、マスキングされた単語の文脈情報や重要度などを抽出します(これをMLM; Masked Language Modelといいます)。

PEGASUSは図2のようなシステム構造を持ちます。特徴的な点として、BERT等で使用したMLMも使用しつつ、文章中の一部の文をマスキングし、残りの文を入力値としてマスキングされた文を予測するモデルも同時に作成します(この方法をGSG; Gap Sentences Generationといいます)。上述のMLMと同様、文単位で文脈情報や重要度などの評価を行い、最終的に重要とされる文章を抽出します。評価指標として、抽出した文が残りの文とどの程度類似しているか(論文中ではROUGEと呼んでいます)を使用し、抽出するための文章を選択するアルゴリズムを実装しています。

図2
図2: PEGASUSのシステム構造(図はZhang et al., 2020より引用)。
図中”MASK1”はGSG, ”MASK2”はMLMを指し、両方の学習を同時に行うTransformer-Encoder-Decoderモデルを採用している。

完成したPEGASUSによって生成された要約の精度は、人の手による要約と遜色ない程度まで完成されています。また抽出的要約と異なり、ただ文章中から重要な文を抜き出してつなげるだけでなく、抽象度を高くして要約を生成しているようです。論文の著者によるブログ(前段落リンク参照)によれば、四つの軍艦の名称を羅列した文を含む文章を学習させた結果、軍艦の名前ではなく「4つの軍艦」という単語をもって要約したそうです。

(※技術の詳細はPEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization (arxiv.org)(元論文)およびGoogle AI Blog: PEGASUS: A State-of-the-Art Model for Abstractive Text Summarization (googleblog.com)(ブログ)をご覧ください。なお日本語で解説しているウェブサイトも存在します。)

まとめ

自動要約は、文書の読解にかける時間を削減し、業務効率化や管理システムの構築に活用できます。本記事では特に保守的とされる法務や医療業界における自然言語処理、特に自動要約による新しい価値を出した事例を紹介しましたが、SNSにおけるマーケティングや社内文書管理、ニュースの見出し付けなど、様々な場面での活用が見込めます。また最新のアルゴリズムとしてPEGASUSが開発されており、日々進化を遂げています。AIが人間と全く同様のレベルまで要約できる日も近いかもしれません。

株式会社キーウォーカーでは、自然言語処理プラットフォームを展開し、教師データの作成から分析・可視化まで一通りのサービスを提供しています。自動要約を使用したプロジェクトの例として、特許データや技術文書の要約、海外SNSやニュースからの需要予測など、幅広い領域にて活用できる可能性があります。ビジネスの改善や新規開発の手段として、検討してみてください!

次回、最終回です!質問回答を中心としたAIチャットボットを取り扱います。

参考

自動要約 – MOXBOX (hazm.at)

PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization (arxiv.org)

Google AI Blog: PEGASUS: A State-of-the-Art Model for Abstractive Text Summarization (googleblog.com)

NLP for the healthcare industry – Artecha

LegalEdison – Automate Case Law Summarization

関連記事

自然言語処理モデル「BERT」を使用した実践的な感情分析の応用例は、下記をご覧ください。
自然言語処理モデル「BERT」を用いたECサイトレビューデータの感情分析
自然言語処理モデル「BERT」を用いたECサイトレビューデータの感情分析(エンジニア向け)

自然言語処理の問い合わせ

ShtockData

お問い合わせフォーム

お問い合わせ項目を選択してください