クラスター分析(とりあえず中澤著「Rによる統計解析の基礎」)

  • 変数間のではなく、データ間の関係を表したい時に使うのがクラスター分析である。クラスター分析には、距離行列に基づいて個体を結合しながらクラスターを積み上げていく(出力は樹状図、またはネットワーク図になる)階層的手法と、あらかじめいくつくらいの塊(クラスター)に分かれるかを決めて、データを適当に振り分ける非階層的手法がある。
  • 距離行列の計算法にも結合法も色々あるわけで...

→いくつかの方法でやってみて樹状図に差がなければ、そのクラスター分析の結果は安定していて、信頼できると言える。樹状図が大きく変わるようなら信頼できない。
→解釈としては、変数が足りないために、個体間の関係が十分に分からない。

  • Rではデフォルトの距離の計算法はユークリッド距離(差の二乗和)クラスター結合法は、完全連結法(complete linkage)である。

クラスター分析の結果は見やすいが、解釈には主観が入りがち。