はじめに
SnowflakeとDataikuは高いシナジーを発揮することが可能で、Dataikuを活用されているお客様の多くが、データソースとしてSnowflakeを使用しています。
具体的には、Snowflakeのデータストレージとコンピューティングのパフォーマンスの高さを、Dataikuの誰でも使える管理されたプラットフォームをかぶせることにより、データパイプライン構築やデータサイエンスのプロジェクトを高速に高度化、大規模化することが可能になります。
今回は、DataikuとSnowflakeの接続についてまとめてみました。
DataikuとSnowflakeの接続
以下の手順で接続します。
- Connectionの作成
DataikuのHome画面の右上の[Navigate to other sections of Dataiku]から「Administartion(アドミニストレーション)」>「Connection」から作成が可能です。(Stacks版のみ、Dataiku CloudではLaunchpadの「Connection」から作成)
- New connection nameに任意のコネクション名を設定し、以下の入力項目に接続先のSnowflakeの情報を入力します。
- Host
- Snowflakeのサインイン画面のURLから取得できます。 「xxxx-yyyy..ap-northeast-1.aws.snowflakecomputing.com」の箇所がHost名になります。 (AWSの場合)
- Database
- 出力結果を格納したいデータベースを入力します。Snowflake上のHome画面の画面左のメニューから「Data」>「Databases」を選択し、画面右上の「+Database」から作成することができます。
- User
- 1.の「ユーザー名」を入力します。
- Password
- 1. の「パスワード」を入力します。
- Host
※上記の方法はテーブル以外にもビュー、マテリアライズドビューもDataikuのデータセットとして読み込むことができます。
(Appendix)内部STAGE上のデータ接続
テーブルやビューに対して接続する方法を紹介しましたが、Snowflakeの内部STAGEデータについても、後述の方法によりDataikuに接続することができます。
- 右上のデータセット名を入力し、「CREATE」ボタンをクリックすることでデータを接続することができます。

まとめ
今回は、SnowflakeのデータをDataikuに接続するための手順を紹介しました。テーブルデータのみならず、他のオブジェクトにも接続することができますので、分析・機械学習を構築してみたいオブジェクトがありましたら、本ブログを参考に作成していただければと思います。
次回は、作成したモデルをUDFとしてSnowflakeに出力する方法について解説いたします。
