新卒1年目の技術に関する備忘録

自主学習で困ったこと、学んだことをまとめています

特徴量のビニングと離散化

線形回帰モデルを柔軟にする方法として、ビニングがある。

線形回帰モデルでは特徴量が1つである場合、予測が直線になってしまうため特徴量を増やす方法としてビニングが使われる。

 

ビニングの方法

特徴量の入力レンジを固定数のビンに分割する。

numpyのlinspaceでビンを作る。

numpyのdigitizeで個々のデータポイントがどのビンに入るかを記録する。

sklearnのOneHotEncoderでビンに分けたデータを引数にとり、ワンホットエンコーディングを行う。