単変量非線型変換
log, sin, cosなどの数学関数を用いることでモデルの精度をあげることができる。
下図のように、値の小さいものが多く、値の大きいものが少ないデータについて考える。
まずはそのままのデータで予測をしてみる。
モデルはリッジ回帰を用いる。
R^2のスコアは62であまり高くない。
データを対数変換する。
変換後の分布は非対称性が少なくなった。
対数変換したデータで予測をすると精度がはるかに良くなった。
カウントデータ(注文数など)の予測は一般的なタスクだが、log(y + 1)で変換すると上手くいくことも多い。