【Dataiku】Code Studios の設定手順

 

はじめに

Dataikuでデータ分析を進める中で、こんな風に思ったことはありませんか?

  1. 「いつものVS Codeを使って、ガッツリとデバッグしたい」
  2. 「ブラウザの簡易的なエディタではなく、自分好みのものを使いたい」
  3. 「クラウドの強力なパワー(Kubernetes)を、もっと手軽に開発に活かしたい」

その悩みをすべて解決するのが、「Code Studios」です。

Code Studioは、一言でいえば、「Dataikuの中に、あなた専用の開発サーバーを1台まるごと用意する機能」です。VS CodeやJupyterLabといった使い慣れたIDEを、Dataikuのデータや強力なクラスター(GKEなど)と直結させて動かすことができます。

今回は最低限知っておくべき設定項目情報と手順を解説していきます。

    手順
  • Pluginインストール
  • Cluster作成・Container設定
  • Code Studioテンプレート作成
  • Code Studioインスタンス起動

環境情報

Dataiku DSSバージョン:DSS 14.2.3
クラウドプラットフォーム:Google Cloud Platform (GCP)
実行基盤:Google Kubernetes Engine (GKE)
設定したIDE:Visual Studio Code

※IAMロールの権限やサービスの有効化などは事前に必要です。

公式ドキュメント:
https://developer.dataiku.com/latest/tutorials/devtools/code-studio/first-code-studio/index.html
https://doc.dataiku.com/dss/latest/code-studios/index.html

1. Pluginインストール

はじめに、DSSから各クラスターを起動させるための機能をPluginとしてインストールします。DSSは、主要なクラウドプロバイダーのKubernetesクラスターを自動管理できます。

プラグインのインストールについては以下のドキュメントを参考にしてください。
https://doc.dataiku.com/dss/latest/plugins/installing.html

  1. Amazon Web Services (EKS経由)
  2. Azure (AKS経由)
  3. Google Cloud Platform (GKE経由)
※クラウド側で各クラスターのAPIを有効にしておく必要があります。

2. Cluster作成・Container設定

作業スペースとなるクラスターの作成と、コンテナの設定を行います。

クラスターの作成

AdministrationのClustersで、右上のCreateからクラスターを作成できます。
https://doc.dataiku.com/dss/latest/containers/managed-k8s-clusters.html#creating-a-cluster

※おそらくPluginでインストールしたものが「CREATE ○○○ CLUSTER」と表示されるはず

マシンタイプやデフォルトのノード数(上限)を設定することで利用可能になります。

コンテナの設定

AdministrationのSettings> Compute & Scaling> Containerized executionで、「+ Add another config」からコンテナの設定を追加することができます。
https://doc.dataiku.com/dss/latest/containers/concepts.html

Kubernetesを選択することで上記クラスター上で動かすことが可能になります。

3. Code Studioテンプレート作成

Code Studioを利用するためのテンプレートを作成します。

AdministrationのCode Studiosで、右上の「CREATE CODE STUDIO TEMPLATE」からテンプレ―トを作成できます。
https://developer.dataiku.com/latest/tutorials/webapps/code-studio/template/index.html

ポイント:Build > Run on 設定にて、手順2で作成したコンテナを選択してください。

4. Code Studioインスタンス起動

各プロジェクト内でCode Studiosからインスタンスを起動します。作成したテンプレートを選択して実行するだけで、専用の開発環境が立ち上がります。
https://doc.dataiku.com/dss/latest/code-studios/code-studio-ides/vs-code.html

ファイルエクスプローラーに「recipes」というフォルダがあり、そこにDSSプロジェクトのレシピがすべてリストされています。

Pythonレシピからは「EDIT IN CODE STUDIO」でVS Code画面に遷移が可能になります。

重要な操作:同期について

VS Code上の「recipes」フォルダにあるファイルを編集した際、「SYNC FILES WITH DSS(DSSとファイルを同期)」をクリックすることで、DSS上のレシピに内容が反映されます。

※同期を行わないと、作業内容はDSSのフローに反映されませんので注意してください。

まとめ

Dataiku DSS上で自分専用の開発環境を構築できるCode Studiosの導入手順を解説しました。「使い慣れたツール」と「強力なインフラ」が融合することで、データ分析の生産性は飛躍的に向上します。ぜひ皆さんの環境でも試してみてください。

また、このCode Studio上でWebappが作成できるみたいなので、次回はこちらの内容もブログ化していきます。
https://doc.dataiku.com/dss/latest/code-studios/code-studio-webapps/index.html

ShtockData

お問い合わせフォーム

お問い合わせ項目を選択してください