線形回帰モデルの従属変数と独立変数
independent variable(explanatory variable):独立変数・説明変数
独立変数とは、y=f(x)のxのこと。結果yに関連すると考えられる変数。
例:GDP成長率を株式リターンの予想に使う場合、求める株式リターンが、従属変数となり、GDP成長率が独立変数となります。
dependent variable(explained):従属変数・被説明変数
従属変数とは、y=f(x)のyのこと。従属変数は、その変動が独立変数によって説明される変数。
correlation coefficient:相関係数
相関係数(r)は、2つの変数の間の線形関係(相関)の強さを表す尺度である。相関係数は -1 ≦ r ≦ +1の値を取ります。
r=covariance of X and Y/{(sample standard deviation of X)(sample standard deviation of Y)}
=covXY/{(SX)(SY)}
Simple Linear Regression Model
ˆYi=ˆb0+ˆb1Xi, i = 1, 2, 3, …, n…, n
ˆYi= estimated value of Yi given Xi:回帰式で見積もられる値
ˆb0= estimated intercept term:回帰直線が縦軸と交わる点
ˆb1= estimated slope coefficient:回帰係数。直線の傾き
\”^\”は、予測値を示します。
sum of squared errors(SSE)
推定値と実際のY値間の差の二乗和を二乗和誤差(SSE)という。
slope coefficient
ˆb1=covXY/σ2X
intercept
b0=¯Y−ˆb1¯X
¯Y = mean of Y
¯X = mean of X
Linear regressionの前提
- 線形成:従属変数と独立変数の間に線形関係(例:y=ax+b)が存在する。
- 等分散性:残差項の分散は,すべてのxの値で一定である(Homoskedasticity)。
- 独立性:残差項は独立分布である。あるオブザベーションの残差は,他のオブザベーションの残差と相関しない。
- 正規性:残差項が正規分布している。
Homoskedasticity
残差の分散がオブザベーション間で一定。例えば、散布図などにおいて、x軸の値が大きくなってもデータのばらつきが変わらず一定であることなど(x値が大きくなっても回帰直線の付近に一定のばらつきでデータが集まっている)。
Heteroskedasticity
残差の分散がオブザベーション間で異なる。例えば、散布図などにおいて、x軸の値が大きくなるに従い、データのばらつきが大きくなっていくこと(x値が大きくなるに従い、データが回帰直線から離れて散らばるようになる)。
Independence
どの独立変数の残差間にも相関がないこと。
Normality
残差が正規分布していること。