新卒1年目の技術に関する備忘録

自主学習で困ったこと、学んだことをまとめています

2018-12-28から1日間の記事一覧

単変量非線型変換

log, sin, cosなどの数学関数を用いることでモデルの精度をあげることができる。 下図のように、値の小さいものが多く、値の大きいものが少ないデータについて考える。 まずはそのままのデータで予測をしてみる。 モデルはリッジ回帰を用いる。 R^2のスコア…

特徴量のビニングと離散化

線形回帰モデルを柔軟にする方法として、ビニングがある。 線形回帰モデルでは特徴量が1つである場合、予測が直線になってしまうため特徴量を増やす方法としてビニングが使われる。 ビニングの方法 特徴量の入力レンジを固定数のビンに分割する。 numpyのlin…

クラスタリングの評価

正解データを用いるクラスタリングの評価 調整ランド指数(adjusted rand index: ARI)、正規化相互情報量(normalized mutual information)がある。 正解データを用いないクラスタリングの評価 シルエット係数 シルエットスコアはクラスタのコンパクトさを計算…

DBSCAN

DBSCAN(density-based spatial clustering of applications with noise) 密度に基づくノイズあり空間クラスタリング 利点 ・クラスタ数を先験的に与える必要がない。 ・どのクラスタにも属さない点を判別できる。 高密度領域(混んでいる領域)を見つける。 …