Unsupervised Learning:教師なし学習
Principal component analysis (PCA):主成分分析
次元削減の手法。データセットに含まれる特徴の数(次元)が多い場合、ノイズが多いという問題が発生することがあります。PCAにより、情報量の少ない属性を削除することでノイズを減らすことができます。
相関のある多数の因子の情報を、第1因子、第2因子……とより小さな無相関の因子の集合に纏めていきます。PCAの第1因子は、最も高い固有値を持つ因子であり、最も重要な因子です。第2因子は2番目に重要(すなわち、2番目に高い固有値を持つ)となります。
Clustering:クラスタリング
クラスタリングは、データセットが与えられたときその属性の類似性(凝集力と呼ばれる)に基づき、グループ分けする方法です。
K-means clustering:k平均法
クラスターの平均を用い、オブザベーションを事前に定めたk個(ハイパーパラメータ)の重複しないクラスタに分割する手法です。各クラスタはセントロイド(クラスタの中心)を持ち,各新しいオブザベーションは,そのセントロイドへの近接性に基づいてクラスタに割り当てられます。最初は、k個のセントロイドがランダムに選択され、クラスタリングが開始され、新しいオブザベーションがクラスタに割り当てられると、そのセントロイドは再計算され、その結果、いくつかのオブザベーションが再割り当てされ、新しいセントロイドが得られます。すべてのオブザベーションが割り当てられ、新しい再割り当てがなされなくなるまで、これが繰り返されます。
Hierarchical clustering:階層クラスタリング
階層的クラスタリングは,k平均法と違い、クラスタの事前定義された数(k)なしでクラスタの階層を構築することができます。樹形図(デンドログラム)ができます。凝縮型と分割型があり、凝集型(またはボトムアップ)クラスタリングでは,1つのオブザベーションをそれ自身のクラスタとして開始し、他の類似のオブザベーションをそのグループに追加するか、別の非重複クラスタを形成していきます。分割型(またはトップダウン)クラスタリングでは、1つの巨大なクラスタから始めて、そのクラスタをより小さなクラスタに分割していきます。