新卒1年目の技術に関する備忘録

自主学習で困ったこと、学んだことをまとめています

2018-12-27から1日間の記事一覧

凝集型クラスタリング

個々のデータポイントをそれぞれ個別のクラスタとして開始し、最も似た2つのクラスタをくっつけていく。 指定したクラスタの数になるまでそれを繰り返す。 連結度 ward 併合した時に、クラスタ内の分散の増分が最小になるように2つのクラスタを選択する。こ…

ベクトル量子化、成分分解としてのk-means

k-meansはクラスタセンタで個々のデータポイントを表現する。 個々のデータポイントを、クラスタセンタとして与えられる単一の成分で表現していると考えることができ、k-meansを成分分解としてみる考え方を、ベクトル量子化と呼ぶ。

クラスタリングとクラス分類

クラスタリングとクラス分類は、両方ともラベル付けをするという意味で、ある意味似ているが、クラスタリングには真のラベル(テストデータ)がない点において異なる。

k-meansクラスタリング

データのある領域を代表するようなクラスタ重心を見つけようとする。 個々のデータポイントを最寄りのクラスタ重心に割り当てる。 個々のクラスタ重心をその点に割り当てられたデータポイントの平均に設定する。 データポイントの割り当てが変化しなくなった…

非負値行列因子分解(NMF)

Non-negative matrix factorization 有用な特徴量を抽出することを目的とする教師なし学習手法の1つである。 アルゴリズムの動作はPCAと似ていて、次元削減に用いることが出来る。 PCAでは、個々の成分はデータの分散を可能な限り説明する、互いに直行するも…

PCA基礎

PCAのwhitenオプション 主成分が同じスケールになるように変換する。 PCA後にStandardScalerをかけるのと同じ。