凝集型クラスタリング

個々のデータポイントをそれぞれ個別のクラスタとして開始し、最も似た2つのクラスタをくっつけていく。指定したクラスタの数になるまでそれを繰り返す。連結度 ward 併合した時に、クラスタ内の分散の増分が最小になるように2つのクラスタを選択する。こ…

ベクトル量子化、成分分解としてのk-means

k-meansはクラスタセンタで個々のデータポイントを表現する。個々のデータポイントを、クラスタセンタとして与えられる単一の成分で表現していると考えることができ、k-meansを成分分解としてみる考え方を、ベクトル量子化と呼ぶ。

クラスタリングとクラス分類は、両方ともラベル付けをするという意味で、ある意味似ているが、クラスタリングには真のラベル（テストデータ）がない点において異なる。

データのある領域を代表するようなクラスタ重心を見つけようとする。個々のデータポイントを最寄りのクラスタ重心に割り当てる。個々のクラスタ重心をその点に割り当てられたデータポイントの平均に設定する。データポイントの割り当てが変化しなくなった…

Non-negative matrix factorization 有用な特徴量を抽出することを目的とする教師なし学習手法の1つである。アルゴリズムの動作はPCAと似ていて、次元削減に用いることが出来る。 PCAでは、個々の成分はデータの分散を可能な限り説明する、互いに直行するも…

PCAのwhitenオプション主成分が同じスケールになるように変換する。 PCA後にStandardScalerをかけるのと同じ。