自動特徴量選択 - 新卒1年目の技術に関する備忘録

モデルの汎化性能を向上させるために、最も有用な特徴量だけを残し、残りを捨てて特徴量を減らす必要がある。

良い特徴量を知るための基本戦略3つ。

・単変量統計

・モデルベース選択

・反復選択

単変量統計

個々の特徴量とターゲットの間に統計的に顕著な関係があるかどうかを計算し、最も確信度の高い特徴量を選択する。クラス分類の場合は分散分析。

scikit-learnで使う場合は、通常、クラス分類にはf_classif、回帰にはf_regressionを用いる

モデルベース選択

教師あり学習モデルを用いて、個々の特徴量の重要性を判断し、重要なものだけを残す手法。

SelectFromModel変換器を用いる。

反復選択

異なる特徴量を用いた一連のモデルを作る。

作り方には基本的な方法が2つある。

・まったく特徴量を使わないところから、ある基準が満たされるところまで1つずつ特徴量を加えていく方法

・すべての特徴量を使う状態から、1つずつ特徴量を取り除く方法

方法の1つとして、再帰的特徴量削減(recursive feature elimination : RFE)

この方法は作り方の種類として、2つ目にあたる。

反復選択は単変量やモデルベース選択に比べて、はるかに時間がかかる。