はじめに

Dataikuでデータ分析を進める中で、こんな風に思ったことはありませんか?
- 「いつものVS Codeを使って、ガッツリとデバッグしたい」
- 「ブラウザの簡易的なエディタではなく、自分好みのものを使いたい」
- 「クラウドの強力なパワー(Kubernetes)を、もっと手軽に開発に活かしたい」
その悩みをすべて解決するのが、「Code Studios」です。
Code Studioは、一言でいえば、「Dataikuの中に、あなた専用の開発サーバーを1台まるごと用意する機能」です。VS CodeやJupyterLabといった使い慣れたIDEを、Dataikuのデータや強力なクラスター(GKEなど)と直結させて動かすことができます。
今回は最低限知っておくべき設定項目情報と手順を解説していきます。
-
手順
- Pluginインストール
- Cluster作成・Container設定
- Code Studioテンプレート作成
- Code Studioインスタンス起動
環境情報
Dataiku DSSバージョン:DSS 14.2.3
クラウドプラットフォーム:Google Cloud Platform (GCP)
実行基盤:Google Kubernetes Engine (GKE)
設定したIDE:Visual Studio Code
公式ドキュメント:
https://developer.dataiku.com/latest/tutorials/devtools/code-studio/first-code-studio/index.html
https://doc.dataiku.com/dss/latest/code-studios/index.html
1. Pluginインストール
はじめに、DSSから各クラスターを起動させるための機能をPluginとしてインストールします。DSSは、主要なクラウドプロバイダーのKubernetesクラスターを自動管理できます。
プラグインのインストールについては以下のドキュメントを参考にしてください。
https://doc.dataiku.com/dss/latest/plugins/installing.html

2. Cluster作成・Container設定
作業スペースとなるクラスターの作成と、コンテナの設定を行います。
クラスターの作成
AdministrationのClustersで、右上のCreateからクラスターを作成できます。
https://doc.dataiku.com/dss/latest/containers/managed-k8s-clusters.html#creating-a-cluster

マシンタイプやデフォルトのノード数(上限)を設定することで利用可能になります。
コンテナの設定
AdministrationのSettings> Compute & Scaling> Containerized executionで、「+ Add another config」からコンテナの設定を追加することができます。https://doc.dataiku.com/dss/latest/containers/concepts.html
Kubernetesを選択することで上記クラスター上で動かすことが可能になります。

3. Code Studioテンプレート作成
Code Studioを利用するためのテンプレートを作成します。
AdministrationのCode Studiosで、右上の「CREATE CODE STUDIO TEMPLATE」からテンプレ―トを作成できます。
https://developer.dataiku.com/latest/tutorials/webapps/code-studio/template/index.html


4. Code Studioインスタンス起動
各プロジェクト内でCode Studiosからインスタンスを起動します。作成したテンプレートを選択して実行するだけで、専用の開発環境が立ち上がります。
https://doc.dataiku.com/dss/latest/code-studios/code-studio-ides/vs-code.html
ファイルエクスプローラーに「recipes」というフォルダがあり、そこにDSSプロジェクトのレシピがすべてリストされています。

Pythonレシピからは「EDIT IN CODE STUDIO」でVS Code画面に遷移が可能になります。

重要な操作:同期について
VS Code上の「recipes」フォルダにあるファイルを編集した際、「SYNC FILES WITH DSS(DSSとファイルを同期)」をクリックすることで、DSS上のレシピに内容が反映されます。
※同期を行わないと、作業内容はDSSのフローに反映されませんので注意してください。
まとめ
Dataiku DSS上で自分専用の開発環境を構築できるCode Studiosの導入手順を解説しました。「使い慣れたツール」と「強力なインフラ」が融合することで、データ分析の生産性は飛躍的に向上します。ぜひ皆さんの環境でも試してみてください。
また、このCode Studio上でWebappが作成できるみたいなので、次回はこちらの内容もブログ化していきます。
https://doc.dataiku.com/dss/latest/code-studios/code-studio-webapps/index.html