新卒1年目の技術に関する備忘録

自主学習で困ったこと、学んだことをまとめています

2019-01-01から1年間の記事一覧

他クラス分類の方法

二項分類器を使って他クラス分類を行う方法 OVA法(one-versus-all) 分類する数分だけ個々の分類器を作り、1つとその他の分類をすることで他クラス分類を実現させる。 OVO法(one-versus-one) 分類する数の組み合わせの分だけ分類器を作り、1対1の分類をする。…

テールヘビーの分布の前処理

ヒストグラムがテールヘビー(中央値の左側よりも右側が大きく広がっている)だと、機械学習アルゴリズムはパターンを見つけにくくなることがある。 そういう属性は、ベル型の分布に近づくように変換する。

カスタム変換

変換器を自分で作りたい時は、TransformerMixinとBaseEstimatorを基底クラスに追加すれば良い。

回帰の性能指標

回帰の性能指標として、一般的には平均二乗誤差(RMSE:Root Mean Square Error)を用いる。 しかし、外れ値となる区域が多数ある場合は平均絶対誤差 (MAE:Mean Absolute Error)を使うことを考えると良い。 実測値と予測値の差の絶対値の平均をとる。 これ…

インスタンスベース学習とモデルベース学習

インスタンスベース学習 既知のデータを丸暗記し、新しいデータを類似度の尺度を使って汎化する。 モデルベース学習 データ例全体からモデルを構築し、そのモデルを使って予測をする方法。

バッチ学習とオンライン学習

バッチ学習 システムを少しずつ学習することができない。 訓練する際は、全ての訓練データを与える必要がある。 オンライン学習 オンライン学習とは異なり、学習データが入ってくるたびに都度、新たに入ってきたデータのみを使って学習する。差分学習とも呼…

テキストデータの処理

Bag of Wordsによるテキスト表現 ・トークン分割 個々の文書を単語に分割する。 ホワイトスペースや句読点で区切る。 ・ボキャブラリ構築 単語に番号付をする。 ・エンコード 単語が現れる回数を数える。 tf-idfを用いたデータのスケール変換 特徴量がどの程…

評価基準を用いたモデル選択

GridSearchCVとcross_val_scoreにAUCのような基準を用いる。 GridSearchCVとcross_val_scoreの両方にあるscoringという引数を用いる。 デフォルトの基準(精度)からAUCに変更するにはscoringパラメータにroc_aucを与える。