K-Meansの距離尺度
K-Meansとユークリッド距離
sklearnのK-Meansアルゴリズムはコードを見る限り,ユークリッド距離を用いています(KMeans).そのため,楕円形に広がるデータのクラスタリングは苦手です.クラスタが円状に広がるイメージ(参考)なので,次のようなクラスタリングは期待通りにならないのです.

黒とピンクの色に分類されているインスタンスは1つのクラスタであるべきですが,セントロイドが2つできています.一方で緑色に分類されているインスタンスは2つのクラスタに分けられるべきですが,1つのクラスタしかできていません.これは前述の通り,K-Meansの距離尺度としてユークリッド距離が使われているからだと考えます.
距離尺度を変えて,K-Meansアルゴリズムに適用することでこれを回避できるのですが,まだ試していないので次の記事に任せます.
それではよい1日を
Thanks for reading! Read other posts? Have a good day:)