新卒1年目の技術に関する備忘録

自主学習で困ったこと、学んだことをまとめています

クラスタリングの評価

正解データを用いるクラスタリングの評価

調整ランド指数(adjusted rand index: ARI)、正規化相互情報量(normalized mutual information)がある。

 

正解データを用いないクラスタリングの評価

シルエット係数

シルエットスコアはクラスタのコンパクトさを計算する。

しかし、複雑な形状のクラスタはコンパクトにならないため、実際にはあまりうまくいかない。

 

もう少し良い評価方法として、頑健性を用いたクラスタリング評価指標がある。