Dataiku×Snowflakeで予測処理を高速化!! UDFにより推論が劇的に速くなる仕組み

はじめに

本記事では、アドベントカレンダーの一環として、Snowflake の UDF（User-Defined Function）を活用し、データベース内で高速にスコアリングを実行する方法を紹介します。

通常、Snowflakeのデータを使ってDataikuで予測するとき

Snowflake → Dataikuへデータ取得 → 予測 → Snowflakeへ書き戻し

という往復が必要です。
しかしSnowflakeのUDFを活用することによって予測処理がSnowflake内部で完結するので、

Dataikuへのデータの転送がなくなり高速に予測値を出すことができます。

Dataikuとは？

Dataiku（データイク）とは、企業がデータ分析から生成AIまで、日常業務にAIを組み込むための技術、チーム、業務を統合するユニバーサルAIプラットフォームです。ノーコードとフルコードの両方に対応した使いやすいUIを提供し、部門を超えたコラボレーションを促進することで、スキル向上やプロジェクトの高度化を実現します。また、クラウドやローカルのさまざまなデータを一元的に扱え、環境を選ばずデータ活用ができる柔軟性が特徴です。さらに、全社の分析プロジェクトを統合・管理することで、コストやリソースを最適化し、強固なガバナンスのもと、効率的なデータ活用を可能にします。

SnowflakeのUDFとは？

SnowflakeのUDFとは、SQLで表現しにくい処理を、ユーザーが独自に関数として定義し、Snowflake内で実行できる仕組みです。

SQLでは、集計やデータの結合などを簡単に行うことができますが、機械学習で作成したモデルから予測値を算出したりなどの計算が行えなかったりします。そこでUDFを使用することで独自の関数を定義し、機械学習のモデルから予測値を算出することができたりします

手順

最初に、UDFを格納するためのステージをSnowflake上に作成します。

事前にDatabase、Schemaについては作成していました。

次にSnowflakeのコネクションを作成します。

作成方法については、以下の弊社のブログをご参照ください。

https://www.keywalker.co.jp/blog/dataiku-snowflake.html

コネクション設定時に、[Use Java UDF]にチェックを入れます。チェックを入れると、[Stage for Java UDF]と[Path in stage]の項目がでてくるので、[Stage for Java UDF]には先ほど作成したステージ名、[Path in stage]には任意の名前を入力します。（[Path in stage]についてはステージ内のサブパスのようなもので、事前に準備しておく必要がない）