1.はじめに
データを使って統計検定を行いたい場合、Dataikuではコードを書くことなく、統計レシピを使って簡単に検定を実施できます。この記事では、統計レシピを使って「1標本t検定」を実施する手順を具体的に紹介します。
Dataikuの統計レシピは、単にデータセットの統計量を出力するだけではなく、主成分分析(PCA)や統計検定など、さまざまな分析が可能です。今回のケースでは、ダミーデータとして身長データを生成し、これをもとに母集団の平均値を推定するための1標本t検定を行います。
2.統計レシピの使い方
統計レシピはビジュアルレシピから選択できます。(赤枠で囲まれたアイコンを選択)
参考ドキュメント
具体的な手順は以下のようになります
- ステップ1: ダミーデータの準備
- 正規分布を仮定した身長のデータセットを準備します。
- ステップ2: 統計レシピの設定
- Dataikuの「統計レシピ」機能を選択し、データセットをロードします。
- その後、「t検定」を選択し、検定を実行するための対象列を指定します。
- ステップ3: 仮説設定(両側検定)
- 帰無仮説 H0: 母集団の平均身長は172cmである。
- 対立仮説 H1: 母集団の平均身長は172cmではない。
- ステップ4: t検定の実行
- 統計レシピ上で指定した仮説に基づき、1標本t検定を実行します。結果として、t値とp値が表示されます。
- ステップ5: 結果の解釈
- 出力されたp値が設定した有意水準(例えば0.05)より小さい場合、帰無仮説を棄却し、対立仮説を採択します。
これにより、ダミーデータを使ったt検定の結果を簡単に確認することができます。
統計レシピではt検定だけでなく、シャピロ-ウィルクの検定や2標本検定など様々な検定が実行できます。
今回はスチューデントのt検定を行います。
次に統計検定を行うための設定を行います。
Alternative hypotheses(対立仮説)で対立仮説を決め、両側検定か片側検定をするかを設定します。
Confidence levelで信頼区間を設定します。今回は0.95にします。
Test variableで検定の対象となるカラムを選択します。
Hypothesized meanで推定したい母平均を設定します。今回は172としておきます。
このように検定のための設定を済ませたらレシピを実行します。
結果を一部抜粋します。
検定の結果としてt値(t_statistic)、自由度(degrees_of_freedom)、有意水準(significance_level)、p値(p_value)が出力されています。
今回の結果としては、帰無仮説が却下(conclusion=REJECTED)されました。そのため対立仮説が採用されたことになります。
3.おわりに
本記事では、Dataikuの統計レシピを活用し、様々な統計検定を実装する方法について解説しました。
統計検定は、売上データの変動や顧客行動のパターンを分析し、施策の効果を検証する際に非常に有用です。
例えば、A/Bテストによるキャンペーンの効果測定や、商品販売前後の売上変動の有意差を確認する場合、統計検定を用いることで信頼性の高い判断が可能になります。
また、Dataikuを使うことで、専門的な統計知識がなくとも、簡単に検定結果を確認し、ビジネスの最前線で活用できるアプローチを実現できます。