新卒1年目の技術に関する備忘録

自主学習で困ったこと、学んだことをまとめています

DBSCAN

DBSCAN(density-based spatial clustering of applications with noise)

密度に基づくノイズあり空間クラスタリング

利点

クラスタ数を先験的に与える必要がない。

・どのクラスタにも属さない点を判別できる。

 

高密度領域(混んでいる領域)を見つける。

DBNCANは、クラスタは、データの中で高密度領域を構成していて、比較的空虚な領域で区切られているという考えに基づいている。

高密度領域中のデータポイントはコアサンプルと呼ばれる。

DBSCANには、min_samplesとepsという2つのパラメータがある。

DBSCANの定義

あるデータポイントから距離eps以内にmin_samples以上のデータポイントがあるとき、それをコアサンプルと呼ぶ。eps以内にあるコアサンプルは同じクラスタに割り当てられる。