Machine Learning
MLの用語
- Target variable:目的変数.従属変数(y変数)。
- Features:特徴量。独立変数:分析すべきデータや対象物の特徴・特性を、定量的に表した数値。
- Training data set:データセット。機械学習を行う際に必要な学習データ。データとラベルをセットにしたもの。
- Hyperparameter:ハイパーパラメータ:機械学習アルゴリズムの挙動を設定するのに使うパラメータのこと。
Supervised learning:教師あり学習
教師あり学習は、事前に人間がラベル付けした学習データを使って、MLプログラムをより優れた予測精度にするものです。教師付き学習の典型的なタスクは分類(社債の格付け)と回帰です。
unsupervised learning:教師なし学習
教師なし学習では、ラベル付けされた学習データが与えられず、代わりに入力データのみが与えられ、その入力についてデータの基本的な構造や分布をモデル化します。目標とする変数がない場合、プログラムはデータ中の構造あるいは相互関係を探し出します。クラスタリング(データに内在するグループ分けを見つける)やアソシエーション分析(データの大部分を表すようなルールを見つける)は教師なし学習の一例です。
Deep learning
ディープラーニングアルゴリズムは、画像認識や自然言語処理などの複雑なタスクに利用されています。また、自らの予測誤差から繰り返し試行錯誤を重ね学習するプログラムは、強化学習アルゴリズムと呼ばれます。
Overfitting:過学習
教師あり学習において、データサンプルに含まれる独立変数が多い場合に発生します。オーバーフィッティングは、対象変数のノイズや外れ値、偏り、ランダム性がパターンであると誤認され発生します。モデルをオーバーフィットさせると、他の(サンプル外の)データに対するモデル予測の精度が低下します。
Bias error:適合度の低いモデルから生じるサンプル内誤差。予測値と真の値とのズレ。学習不足の状態。
Variance error:うまく一般化できない過適合モデルから生じる標本外誤差。モデルの複雑さによって増加します。
Base error:ランダム・ノイズによる残留誤差。