Dataikuとは
Dataiku(データイク)とは、2014年に発表されたデータサイエンスや機械学習のプロジェクトを支援するための統合プラットフォームです。
本記事は、これからデータ活用を進めたいマネージャーの方や、データ分析を効率的に進めたいと考えているデータサイエンティストやビジネスアナリストの方を対象に、以下の内容をご説明します。
- Dataikuの主な特長と利点
- Dataikuのトライアルの始め方
- データ整形から分析・可視化までの簡単な流れのご紹介
(本記事は2023年5月に執筆されたものです。)
実装については、弊社エンジニアが作成した以下の記事をご確認ください。
・KaggleでおなじみのTitanicのデータをDataikuで整形をしてみた・KaggleでおなじみのTitanicの生存者予測をDataikuでしてみた
Dataikuの主な特長と利点
Dataikuには、以下のような特長があります
- データ整形から分析までをワンストップで実現
- Dataikuは、複数のデータソースへの接続、データの統合、クリーニング、変換から機械学習モデルの設計、評価、デプロイ、データの可視化、モデルの管理までを統合的にサポートします。これにより、データ活用のプロセスを効率化し、これまでデータ分析に使っていた膨大な時間と労力を節約できます。
- ビジュアライズされたデータフロー
- Dataikuは、GUIを通じてデータの流れを直感的に理解できるようにします。データの加工や分析のプロセスが視覚的に表現され、変更や再利用が容易です。これにより、非技術的なユーザーもデータ活用に参加しやすくなります。
- 充実したコラボレーション機能
- Dataikuは、プロジェクト共有機能、バージョン管理、タスクチケットなどのコラボレーション機能を提供します。複数のデータサイエンティストやビジネスユーザーが協力してプロジェクトを進めることができます。また、ノーコードでの利用も可能で、ビジネスユーザーがデータ活用に参加できます。
- エンタープライズ向けのセキュリティ・ガバナンス
- Dataikuは、エンタープライズ環境において要求されるデータのセキュリティとガバナンスを確保します。データへのアクセス制御や監査ログの管理など、厳格な要件を満たすための機能を提供しています。
Dataikuで出来ること
Dataikuには、すぐに業務で利用できるようあらかじめ準備されたプリセットがいくつか存在しています。以下に示すのはプリセットを活用して出来ることのほんの一例です。
-
-
- 銀行の顧客セグメンテーション
- 顧客満足度レビュー
- 顧客チャーン(離反)予測
- 不正検知とセキュリティ分析
- 電力消費、CO2排出量の予測
- 生産品質管理
- 在庫最適化と需要予測
- メディカルデータ解析
-
Dataikuの価格
Dataikuは最大3人のユーザーまでの無料トライアルを提供しています。トライアルの詳細については、Dataikuの公式ウェブサイトをご確認ください。
また、各プランに対し、2週間のトライアルが用意されております。
Dataikuのトライアルの始め方
Dataikuには無料ユーザーアカウントに加え、2週間のトライアルが存在しています。
また、各種ユースケースに応じたトレーニングが用意されています。
Dataikuのインストール
Dataikuにはクラウド版とインストール版が有ります。今回はインストール版を使用しました。
こちらのリンクからDataikuのインストールが可能です。
Mac, Linuxはサポートされていますが、Windowsは公式サポート対象外となっておりますので、ご注意ください。
筆者はWindowsで実施しましたが、以降の手順も含め、特に不便なく実施できました。
インストールし、起動した後は、フリーアカウントまたは、2週間のトライアルを選択し、アカウント登録を行います。
データ整形から分析・可視化までの簡単な流れのご紹介
サンプルデータの読み込み
ログイン後の画面は、以下のようになっています。
PROJECTSのNEW PROJECTSというボタンをクリックし、プロジェクトを作成すると、プロジェクトのメインページへ遷移します。
ここで、プロジェクト内で作成されているモデルの数の確認や、TODOの管理などが出来ます。
画面中央のIMPORT YOUR FIRST DATASETというボタンから、ローカルファイルを含む様々なデータセットのインポートが可能です。
下図にある通り、Dataikuでは多くのデータセットがサポートされています。
ここで、インポートしたいデータセットのタイプと、実際にインポートするデータセットを選択します。
データの前処理
各データの中身を確認すると、列ごとに型やフォーマットを定義出来るようになっています。
(以降表示しているデータは、Dataikuが提供しているトレーニングのサンプルデータとなっています。)
各列について、値の分布を確認したり、ワンクリックで選択した列の値を予測する予測モデルを作成することができます。
データ整形
GUIの簡単な操作で、結合やピボットなどの基本的なデータ整形が行えます。より複雑な処理を行いたい場合は、スクラッチでpythonやR、SQLを書いてステップ追加することも可能です。
例えば結合ステップ内では、どの列を結合に使用するか選択し、結合後保持する列の選択、出力の確認を行い、実行ボタンをクリックすると、フローに結合後のデータセットが追加されます。
データ可視化
整形されたデータを可視化することも可能です。
ページ上部のDashboardsより、新規のダッシュボードを作成することが可能です。
パーツのタイプやグラフタイプを選択し、各列、行などに可視化したい指標をドラッグ&ドロップしていくことで、視覚的にデータを確認することが可能です。
グラフタイプを変更するだけで、見せ方を変えることもできます。
いくつかのパーツを組み合わせて、レポートを作成することも容易です。
機械学習
データを整形した後は、機械学習のモデルを作成し、予測、分類などを行うことも可能です。
データを選択した際に出てくる、LABのボタンをクリックし、予測、分類、物体検知、画像分類など様々なタスクの中から、該当するものを選択します。
予測する列を選択したら、TRAINボタンをクリックするだけで素早く予測モデルを学習することが可能です。
モデルの実行結果は精度に加え、各特徴の重要度などの情報も併せて表示されるため、素早く最適なモデルを選択できます。
選択したモデルはそのままデプロイし、未知データの予測に使うことが可能となります。
まとめ
データ分析の統合プラットフォームDataikuについて、その特長と簡単な使い方をまとめました。
Dataikuを活用することで、データ分析の作業効率を飛躍的に向上させることができると感じています。
実装については、弊社エンジニアがDataikuを使ってKaggleでおなじみのTitanicを分析した記事で知ることができます。
・KaggleでおなじみのTitanicのデータをDataikuで整形をしてみた・KaggleでおなじみのTitanicの生存者予測をDataikuでしてみた
皆様もぜひ、Dataikuを試してみて、その実力を実感してみてください。
著者:鳥越 希(データサイエンス部) 最終更新日: 2023.06.02