Dataikuで統計検定を行う

1.はじめに

データを使って統計検定を行いたい場合、Dataikuではコードを書くことなく、統計レシピを使って簡単に検定を実施できます。この記事では、統計レシピを使って「1標本t検定」を実施する手順を具体的に紹介します。

Dataikuの統計レシピは、単にデータセットの統計量を出力するだけではなく、主成分分析(PCA)や統計検定など、さまざまな分析が可能です。今回のケースでは、ダミーデータとして身長データを生成し、これをもとに母集団の平均値を推定するための1標本t検定を行います。

2.統計レシピの使い方

統計レシピはビジュアルレシピから選択できます。(赤枠で囲まれたアイコンを選択)

参考ドキュメント

https://knowledge.dataiku.com/latest/ml-analytics/statistics/concept-generate-statistics.html#concept-generate-statistics-recipe

具体的な手順は以下のようになります

  • ステップ1: ダミーデータの準備
    • 正規分布を仮定した身長のデータセットを準備します。
  • ステップ2: 統計レシピの設定
    • Dataikuの「統計レシピ」機能を選択し、データセットをロードします。
    • その後、「t検定」を選択し、検定を実行するための対象列を指定します。
  • ステップ3: 仮説設定(両側検定)
    • 帰無仮説 H0: 母集団の平均身長は172cmである。
    • 対立仮説 H1: 母集団の平均身長は172cmではない。
  • ステップ4: t検定の実行
    • 統計レシピ上で指定した仮説に基づき、1標本t検定を実行します。結果として、t値p値が表示されます。
  • ステップ5: 結果の解釈
    • 出力されたp値が設定した有意水準(例えば0.05)より小さい場合、帰無仮説を棄却し、対立仮説を採択します。

これにより、ダミーデータを使ったt検定の結果を簡単に確認することができます。

統計レシピではt検定だけでなく、シャピロ-ウィルクの検定や2標本検定など様々な検定が実行できます。

今回はスチューデントのt検定を行います。

次に統計検定を行うための設定を行います。

Alternative hypotheses(対立仮説)で対立仮説を決め、両側検定か片側検定をするかを設定します。

Confidence levelで信頼区間を設定します。今回は0.95にします。

Test variableで検定の対象となるカラムを選択します。

Hypothesized meanで推定したい母平均を設定します。今回は172としておきます。

このように検定のための設定を済ませたらレシピを実行します。

結果を一部抜粋します。

検定の結果としてt値(t_statistic)、自由度(degrees_of_freedom)、有意水準(significance_level)、p値(p_value)が出力されています。

今回の結果としては、帰無仮説が却下(conclusion=REJECTED)されました。そのため対立仮説が採用されたことになります。

3.おわりに

本記事では、Dataikuの統計レシピを活用し、様々な統計検定を実装する方法について解説しました。

統計検定は、売上データの変動や顧客行動のパターンを分析し、施策の効果を検証する際に非常に有用です。

例えば、A/Bテストによるキャンペーンの効果測定や、商品販売前後の売上変動の有意差を確認する場合、統計検定を用いることで信頼性の高い判断が可能になります。

また、Dataikuを使うことで、専門的な統計知識がなくとも、簡単に検定結果を確認し、ビジネスの最前線で活用できるアプローチを実現できます。

ShtockData

お問い合わせフォーム

お問い合わせ項目を選択してください