Dataiku の最新バージョンであるver12.6が4/3にリリースされました。
新しい機能としてはこちらのリリースノートが参考になるかと思います。
https://doc.dataiku.com/dss/latest/release_notes/12.html#version-12-6-0-april-3rd-2024
今回のバージョンでは回帰モデルにおいて予測区間を出力することができるようになりました。
本記事で予測区間の概要を紹介したいと思います。
2.予測区間とは
予測区間とは回帰問題において、一点での予測値を出力するのではなく幅を持たせた区間での予測を出力することを指します。
例えばある店の売上を過去のデータをもとに回帰モデルを作るとします。
未来の売上は時系列的な線で表現することができます。
このように点での予測だと出力された値に対して分析すればいいのですが、そもそも需要予測などではピッタリ当てはめるというのはかなり至難の技です。
そこで予測に幅をもたせることによって、より余裕をもった判断基準をもつことができます。
例えば予測された回帰モデルと予測区間の上限の間で製品を製造したほうがよさそうなど、柔軟に対応することができるようになります。
3.Dataikuでの実装方法
ここではDataiku上での予測区間の出し方を紹介します。
機械学習モデルを作成する際に、目的変数やk-foldなどの設定をするBasicからMetricsを選択します。
そこでUncertanityというところで、Compute Prediction Intervalにチェックをします。
チェックを入れるとCoverageという予測区間をどの範囲でだすかという設定値が表示されます。今回はデフォルトである信頼区間95%で出力させます。
この設定を施すことによって予測値(prediction)だけでなく、prediction_interval_lower(下限)とprediction_interval_upper(上限)が出力されます。
これによって予測区間が出力されたことになります。
4.おわりに
回帰問題を行う際、ぴったり当たるように予測をすべきだという思い込みがあるかと思います。
実際に需要予測などを行う際にぴったり予測を当てるのは難しいと思います。
そこで、予測区間も出力することによって判断基準に余裕を持たせることによって実運用しやすくなるのではないでしょうか。