k-meansと階層的クラスター、実務で使うにはどっちがいい?【教師なし学習】

Python
しぃたけ
しぃたけ

代表的なクラスタリングの手法の違いについて説明します。

概要

こんにちは、しぃたけです。

実務で製造データを分析するとき、データをグループ分けをすることがありその際にクラスタリングをよく活用します。

クラスタリングのアルゴリズムで代表的なものはk-means clusterや階層的クラスターがあると思いますが、使い分けで迷うことがあると思うのでアルゴリズムの違いや、使いやすい方をお勧めしたくて記事にしました。(あくまで持論なので、参考程度にご覧ください。)

参考文献、主にこれです。


アルゴリズムの特徴

結論

結論になりますが、自分は実務でクラスタリング(k-means or 階層的クラスター)を使う際は

階層的クラスターを利用することをお勧めしてます。


理由は下記の理由でk-meansより階層的クラスタリングのほうが優れていると思うからです。


k-means clusterの特徴

  • クラスタ数を最初に指定する必要がある。
  • 分類結果を図示しにくいため、説明性が低い
  • 分類結果に初期値依存性がある。

実務でクラス分けを利用するうえで、上記のような特徴は壁になることが多いです。

実務で利用するデータは分類したいクラスタ数が分かっていない事が多く、あらかじめクラスタ数を決めるk-means clusterの特性は利用しにくかったりします。

また、分類結果が妥当であるかを検討するには、分類の説明性が肝心になってきます。その点でもk-means clusterには使いにくさがあります。

階層的クラスターの特徴

対して階層的クラスタ-はk-meansの特徴の逆になってます。

  • クラスタ数を最初に指定しなくてもいい。
  • 分類結果をデンドログラムで図示でき、説明性が高い。
  • 初期値依存性がない。

分類結果を図示ができるため、分類したいデータのクラスタがいくつ存在するかなど、対話的に分析ができることができるので実務では扱いやすいと感じています。

やってみた

データ作成

早速Pythonで実装してみます。

まずはクラスタリングに利用するデータを作成します。

3か所、各100点データを作成しました。多少ばらけさせたので、ぱっと見てどこにクラスタがあるかはわかりにくくなってます。

このデータを利用して、k-meansと階層的クラスターでクラスタリングを実施してみます。

k-means cluser

まずはk-meansで分類を行います。

k means cluster

図示してみると、いい感じに分類できてそうですね。

しかし、分類結果は問題なさそうですが、このように分類の結果を図示できるのは、部類に利用している特徴量が2次元であったので図示ができているだけです。

一般的に分析に利用するデータの次元数は数十~数百次元くらいあるものが多いかと思います、実際にはこのように分類結果を図示することは難しいです。

というか、2次元データを分類するくらいなら、クラスタリングも必要なくて目視で分類でいいんじゃないかなぁと思います。何にでもアルゴリズムを使えばいいってもんじゃないです。

階層的クラスタ―

次に同様のデータを使って、階層的クラスターを実装してみます。

階層的クラスタリング

縦軸がデータ間の距離、横軸がデータの項目名となっており、縦軸の距離が離れていればいるほどグループ間の距離が遠いことを表しています。

グラフを見ると大きく3つのグループ(緑のグループ、赤の2グループ 計3グループ)があることがわかり、クラスターの数を最初に指定しなくても3つのグループに分類できることがわかります

縦軸の閾値25を切って、3グループに分類した結果を取得します。

このように階層的クラスターは対話的にクラスタ数を選ぶことができます。


精度確認

最後にそれぞれのクラスタリングの結果を確認しときます。

正解データは3クラスのデータが、各クラス100個づつ存在しますが、k-meansも階層的クラスタも各クラスのデータ数は100前後なのでかなり精度よく分類できていると思われます。

念のため、正しく分類されてるか確認しときます。

k-meansの分類結果と階層的クラスターの分類結果は見たところ一致してるので、精度は同じくらいであると考えられます。精度が同じなのであれば説明性が高い方を使いたいかなぁ。

まとめ

k-meansと階層的クラスターの比較をしました。

精度は同じくらいだったので、説明性が高く、クラスタ数の指定もない階層的クラスターをお勧めします。

また、クラスタリングの手法としては、SOM(自己組織化マップ)、混合分布モデルなどほかにもアルゴリズムあるので気が向いたら実装してみます。

コメント

タイトルとURLをコピーしました