DataikuでのLLM Recipesを活用した単語帳を作成してみた

 

1. はじめに

近年、大規模言語モデル(LLM)の登場は、テキストデータの処理と拡張に新たな可能性をもたらしました。しかし、これらの技術を実務に効果的に取り入れるには、適切な開発基盤が不可欠です。

Dataiku は、データ分析やAI開発のための統合プラットフォームとして知られていますが、その真価は大量のデータを効率的に処理し、複雑なワークフローを視覚的に管理できる点にあります。本ブログでは、この Dataiku の強みを活かして、単語帳作成という具体的なユースケースに取り組む方法を紹介します。

本ブログでは、LLM を活用した拡張により作られた単語帳作成に挑戦しましょう。

2. Dataikuと LLM 連携

Dataiku では、データの取り込みから前処理、モデル構築、デプロイメントまでの一連のプロセスを単一のプラットフォーム上で実行できます。しかし、今回のブログでは特に注目したいのが、LLMを活用した「LLM Recipes」機能です。

Dataiku の「LLM Recipes」は、大規模言語モデルの力を簡単にワークフローに組み込むための機能セットです。この機能により、プログラミングの専門知識がなくても、LLM を活用したデータ拡張や変換が可能になります。

LLM Recipes には以下のような機能が含まれています:

  • Prompt:カスタムプロンプトを使用してLLMと対話
  • Classify text:テキストの自動分類
  • Summarize text:長文の要約生成
  • Embed dataset:テキストデータのベクトル埋め込み
  • Fine tune:特定のタスク向けにモデルを微調整
  • Evaluate LLM:LLMの性能評価

今回の語彙リスト作成においては、特に「Prompt」機能を中心に活用します。この機能を使うことで、既存の語彙データをもとに関連語や例文、定義などを自動生成し、データを豊かに拡張することができます。

3. 単語帳のデータ収集と前処理

今回のケースでは、Tableauのドキュメントから抽出したテキストを単語帳に変換しています。具体的には以下のようなテキスト:

Learn how to connect to data, create data visualizations, present your findings, and share your insights with others. This tutorial walks you through the features and functions of Tableau Desktop version 2022.4. As you work through this tutorial, you will create multiple views in a Tableau workbook. The steps you’ll take and the workbook you’ll work in are based on a story about an employee who works at headquarters for a large retail chain. The story unfolds as you step through asking questions about your business and its performance. You’ll learn how to connect to data in Tableau Desktop; build, present, and share some useful views; and apply key features along the way. Budget between one and three hours to complete the steps.

上記の内容をinput.txtファイルとして保存し、Dataikuにアップロードします。この際、重要なポイントがあります。Dataikuでは、テキストファイルをアップロードする際にデフォルトで空白文字による自動区切り機能が有効になっています。そのため、単語データを正しく読み込むには、アップロード時の設定変更が必要です。

具体的な手順は以下の通りです:

  1. ファイルアップロード画面で「CONFIGURE FORMAT」をクリック
  1. 「Type」の設定項目で「one record per line」を選択

この設定により、自動区切りなしの文章として正しく認識されます。

アップロード完了後、以下のような画面でデータの確認ができます。

この文を単語帳として活用するため、Dataikuの機能を使用して以下の処理を実行しました。

ステップ1:データの前処理 元データに含まれる句読点(カンマ「,」とピリオド「.」)を削除し、テキストをクリーンアップします。

ステップ2:トークン化処理 文章を単語レベルに分割し、各単語を個別の行として展開します。これにより、文章形式のデータから単語リストへの変換が可能になります。

ステップ3:データ整理 処理過程で不要となった元の列を削除し、データ構造を整理します。

ステップ4:ストップワード除去 分析において意味を持たない一般的な単語(冠詞、前置詞、数字など)を除外します。この処理により32レコードが削除されました。

これらの処理完了後、FLOW画面に戻り「アクション」メニューから「ビジュアルレシピ」を選択し、「ユニーク」機能をデフォルト設定で実行します。この操作により重複した単語が削除され、最終的に以下のような重複のない単語リストが完成します。

4.LLM を活用し単語データの拡張

前章で準備したデータを基に、LLMを活用して語彙データを拡張していきます。テストとして、まず品詞(POS: Part of Speech)の分類を行います。

最終的に作成されたデータに対し、コードレシピの「LLMレシピ」から「プロンプト」機能を選択します。デフォルト設定のまま実行することで、Dataikuのプロンプト設定画面へ自動的に移行できます。

Dataikuのプロンプト設定は、下図の通り設定画面で行います。

設定画面で以下のように設定しました:

  1. LLMの選択(LLM):この例では「Gemini 1.5 Flash」を選択しています
  1. プロンプトの設定(Prompt):以下のプロンプトを入力しています
あなたは与えられた英単語の品詞(POS)を分類し、日本語で回答するアシスタントです。 次のいずれかの品詞のみを日本語で回答しなさい: 「名詞」「動詞」「形容詞」「副詞」「前置詞」「代名詞」「接続詞」「間投詞」「冠詞」「数詞」 それ以外の内容は一切答えないでください。
  1. 入力設定(Prompt inputs):「分類する英単語」という説明で、データセットの「word」カラムを入力として指定
  1. サンプル例の追加(Examples):モデルの出力を助けるために、以下のような例を追加
    • Input: happiness → Output: 名詞
    • Input: quickly → Output: 副詞
    • Input: beautiful → Output: 形容詞
    • Input: run → Output: 動詞

ここでDataikuでの結果としてLLMから以下のようなカラムが作成されました:

次の段階では、同様のアプローチを応用して発音記号を生成しました。さらに、Dataikuの強力な並列処理機能を活用し、各単語に対する類義語の大規模生成をテスト実施しました。このプロセスでは、特にテクニカルな文脈で適切な類義語が優先されるよう、プロンプトを綿密に設計しています。

語彙理解をさらに深めるため、各単語の実用的な使用例を示す例文も自然な形で生成しました。最後にすべての単語に対して正確かつニュアンスを捉えた日本語訳を追加しています。 一連のプロンプト処理が完了した後、最終成果物として、以下のように「単語」「発音記号」「品詞」「類義語」「使用例」「日本語訳」という六つの要素を列構造で整理した、高度に構造化された語彙リソースが完成しました。

Dataikuの視覚的なワークフロー設計により、これらの複雑な処理を効率的に管理し、結果を即座に確認することができました。また、一度設計したワークフローは新しい単語リストに対しても容易に再適用できるため、継続的な語彙データの拡張が可能になります。

5. ビジネス使用検討

アプリケーション開発への展開

構築した単語帳は、単なるデータ蓄積に留まらず、実用的なアプリケーション開発の基盤として活用できます。Dataikuのワークフロー機能を活用することで、単語帳データを自動的にモバイル学習アプリやWebベースの単語帳システムにエクスポートし、学習者のレベルや進捗に応じた出題アルゴリズムを実装することが可能です。

Webクローリングサービスとの連携による高度なソリューション

今回のようなアイデアを株式会社キーウォーカーが提供するクローリングサービスと組み合わせることで、より戦略的なデータ活用が実現できます。

ShtockDataとの連携では、継続的なWeb情報収集により単語帳データベースを最新状態に保ち、業界トレンドや新出用語を自動的に単語帳に反映させることができます。特に専門分野の単語帳作成において、リアルタイムな情報更新が可能となります。

CERVNによるWebモニタリングと組み合わせることで、競合他社の新製品発表や業界動向から新たな専門用語を継続的に収集し、企業の競争優位性維持に必要な語彙データベースを自動構築できます。

部門横断的なビジネス活用事例

マーケティング部門においては、顧客とのコミュニケーションで頻出するキーワード単語帳を自動作成し、FAQシステムやチャットボットの応答精度向上に活用できます。

さらに、CRMやERPシステムとの連携により、顧客データや販売データから抽出された文章を統合分析し、顧客セグメンテーションや商品開発戦略の高度化を図ることも可能です。構築された単語帳の各キーワードを属性データとして活用し、TableauのようなのBIツールで可視化することで、部門間での情報共有や戦略的意思決定をより効果的に支援できます。

6. おわりに

本ブログでは、DataikuのLLM Recipes機能を活用した単語帳構築の詳細プロセスをご紹介しました。基本的な単語リストから出発し、品詞分類、発音記号、類義語、実用的な例文、そして日本語訳を備えた包括的な単語帳リソースへと発展させる手法を段階的に解説しています。

この事例が示すように、Dataikuプラットフォームを活用することで、複雑なデータ拡張プロセスも直感的な視覚インターフェースを通じて容易に実現できます。特筆すべきは、これらのLLM機能やプロンプト設計をコーディング不要で構成できる点です。

株式会社キーウォーカーでは、言語処理、高度なデータ分析、予測モデリング、そしてWebクローリング技術を統合した多様なデータ活用事例を蓄積しています。お客様固有のビジネス課題に最適化したDataikuソリューションをご提案いたしますので、ご興味をお持ちいただけましたら、弊社ウェブサイトのお問い合わせフォームよりご連絡ください。

ShtockData

お問い合わせフォーム

お問い合わせ項目を選択してください