0
0件のコメント

Penalized regressions:罰則付き回帰モデル
モデルで使用される独立変数の数に基づいてペナルティを課すことで、オーバーフィットの問題を軽減します。ペナルティの値は、使用する独立変数(特徴)の数とともに増加します。ペナルティを課すことで標本外予測精度に有意に寄与しない特徴を除外することで、モデルをより簡素化することができます。

Least absolute shrinkage and selection operator (LASSO)
LASSOは一般的な罰則付き回帰モデルです。LASSOはSSEの最小化に加え、傾き係数の絶対値の総和を最小化します。(独立変数の数を増やすことで)SSEを減らすことと、より多くの独立変数を含めることで課せられるペナルティの間にトレードオフの関係があります。LASSOは最適化により、予測精度の低い特徴量を自動的に排除でき、ペナルティ項であるλは、モデルの過適合と簡略化のバランスを決定するハイパーパラメータです。

Support Vector Machine(SVM):サポートベクターマシン
SVMは線形分類アルゴリズムであり、データを2つの可能な分類(例えば、売り対買い)のうちの1つに分離するものです。n個の特徴が与えられたとき、n次元の超平面がサンプルを2つの可能な分類のうちの1つに分けます。SVMは、すべてのオブザベーションから最も遠い境界を決定することで、正しい予測を行う確率を最大化します。

SVMのメリット
データの次元が大きくなっても識別精度が高い
最適化すべきパラメータが少ない
オーバーフィッテイングになりにくい

SVMのデメリット

大規模なデータセットには不向き
学習データが増えると計算量が膨大になる
基本的に2クラス分類に特化している

K-nearest neighbor (KNN):k近傍法
k近傍法とは、ノンパラメトリックな教師あり学習の分類に使われる手法の一つで、与えられた学習データを特徴空間上にプロットし、未知のデータが得られたら、そこから距離が近い順に任意のk個を取得し、データが属するクラスを推定するというものです。kの指定は、小さすぎると高いエラー率になり、大きすぎると、あまりに多くを平均化することによって結果の制度が下がります。KNNの投資用途としては、倒産予測、債券の格付けクラスへの割り当て、株価予測、カスタムインデックスの作成などがあります。

Classification and regression trees (CART):分類木と回帰木
CARTとはターゲットがバイナリであるなど(たとえば、IPOが成功するか、しないかなど)の条件によって予測を行う時に典型的に使用されます。CARTの投資用途としては、不正な財務諸表の検出、株式や債券の選択などがあります。

Ensemble and Random Forest:アンサンブル学習とランダムフォレスト
アンサンブル学習とは、単一のモデルではなく、複数のモデルからの予測を組み合わせるて、より強力なモデルを構築する方法です。
ランダムフォレストは分類木の一種で、アンサンブル学習のアルゴリズムです。多数の分類木が同じデータセットからバギングされたデータを使って作成されたもので、各決定木の他のものとわずかに異なります。
ランダムフォレストの投資用途としては、ファクターベースのアセットアロケーションや、IPOの成功予測モデルなどがります。

匿名 さんが質問を投稿 2022年7月31日
コメントする