自動特徴量選択
モデルの汎化性能を向上させるために、最も有用な特徴量だけを残し、残りを捨てて特徴量を減らす必要がある。
良い特徴量を知るための基本戦略3つ。
・単変量統計
・モデルベース選択
・反復選択
単変量統計
個々の特徴量とターゲットの間に統計的に顕著な関係があるかどうかを計算し、最も確信度の高い特徴量を選択する。クラス分類の場合は分散分析。
scikit-learnで使う場合は、通常、クラス分類にはf_classif、回帰にはf_regressionを用いる
モデルベース選択
教師あり学習モデルを用いて、個々の特徴量の重要性を判断し、重要なものだけを残す手法。
SelectFromModel変換器を用いる。
反復選択
異なる特徴量を用いた一連のモデルを作る。
作り方には基本的な方法が2つある。
・まったく特徴量を使わないところから、ある基準が満たされるところまで1つずつ特徴量を加えていく方法
・すべての特徴量を使う状態から、1つずつ特徴量を取り除く方法
方法の1つとして、再帰的特徴量削減(recursive feature elimination : RFE)
この方法は作り方の種類として、2つ目にあたる。
反復選択は単変量やモデルベース選択に比べて、はるかに時間がかかる。