1.はじめに
Dataiku の最新バージョンであるver12.6が4/3にリリースされました。
新しい機能としてはこちらのリリースノートが参考になるかと思います
https://doc.dataiku.com/dss/latest/release_notes/12.html#version-12-6-0-april-3rd-2024
今回のバージョンで新しいレシピとして統計レシピが新しく追加されました。
本記事では統計レシピの概要を紹介したいと思います。
2.統計レシピとは?
Dataikuの中にも統計学的なインサイトを得られる機能はすでに備わっています。
例えばデータセットのヒストグラムや平均値などは以下のようなタブからクリックし得ることができます。
データセットを選択し、統計というタブをクリックします。
クリックすると、以下のような画像がでてきます。
Automated selectionでは自動的に相関関係や統計的なインサイトを出力してくれます。
他にもManual selectionでは単変量解析、多変量解析、仮説検定など様々な機能があります。
統計機能では以下のように表示されます。平均値や中央値、標準偏差なども同時に得られます。
今まではダッシュボード上にパブリッシュすることができましたが、ver12.6からはデータとして出力できるようになりました。
単変量解析だけでなく主成分分析や統計検定もデータとして吐き出せます。
以下のようなデータをもとに統計レシピを用いて統計量を出してみたいと思います。
統計量の得たいカラム名を赤枠のように選択します。
ここではアイテムごとの統計量を得られるようにします。
実行すると結果は以下のようになります。
アイテムCの例になりますが、アイテムの出現数、アイテムの平均、中央値、標準偏差、最大最小、第一四分位数、第三四分位数など様々な統計量が表示されています。
このような形で今までグラフでしか得られていなかったものがデータとして見られるようになりました。
他にも統計検定や主成分分析など統計処理にまつわるものもデータとして吐き出せるようになったので、機械学習にかける前のEDA(探索的データ分析)もよりはかどるようになるのではないでしょうか。
3.最後に
バージョンアップに伴い様々な機能が追加されました。今回は統計レシピについて取り上げましたが、次回は新たに追加された予測区間の出力についてご紹介したいと思います。