ANOVA(analysis of variance):分散分析
t検定は2つの平均値の相違を検討するのに使いますが、 3つ以上の平均値の相違を検討する場合にはANOVAを使います。
RSS、SSEなどに分解し全変動のうちどの程度が回帰によって説明できるかを分析すること。
Total sum of squares (SST):全変動
従属変数の変動の総和を測定します。SSTは、実際のY値とYの平均の値の差の2乗の合計で表されます。
SST=n∑i(Yi−¯Y)^2
Regression sum of squares (RSS)explained:予測値の変動
独立変数によって説明される従属変数のバラツキを測定します。RSS は予測されたY値とYの平均の間の2乗距離の合計で表されます。
RSS=n∑i(ˆYi−¯Y)^2
Sum of squared errors (SSE)unexplained:誤差による変動
SSEは従属変数の説明されない変動を測定します。これは、二乗残差の合計または残差二乗和としても知られている。SSE は,回帰線上の実際の Y 値と予測される Y 値の差(垂直距離)の2乗の合計です。
SSE=n∑i(Yi-ˆY)^2
SSTは、回帰による変動(予測値の変動SSR)と誤差による変動(SSE)で表せます。
SST = RSS + SSE
total variation = explained variation + unexplained variation
MSR=RSS/k
MSE=SSE/(n−2)
Standard Error of Estimate (SEE)
残差の標準偏差のこと。SEE が低いほど,モデルのよく適合しています。
SEE =√MSE
決定係数(R2)
決定係数(R2) は,従属変数の全変動が独立変数によって説明されるパーセンテージを表しています。たとえば、R2が0.63の場合、独立変数の変動が従属変数の変動の63%を説明することを示します。
R2
= RSS / SST
Adjusted R-Squared
R2は、変数がモデルに追加されれると新しい変数が統計的に優位でなくともR2の値は増加してしまします。そのため、この回帰モデルの過大評価を修正するために以下のようにR2を修正します。
n = number of observations
k = number of independent variables
= adjusted R2
R2aは、常にR2より小さいか等しくなります。R2が十分に低い場合、R2aは0より小さくなることもあります。
F検定
F検定とは独立変数の集合の中の少なくとも1つの独立変数が従属変数の変動の有意な部分を説明するかどうかを検定します
(F-検定を用いてb1が統計的に有意かどうかを判断するなど)。F値は大きいほど、p値は小さくなります。
F=MSR/MSE=(RSS/k)/(SSE/n−k−1)
MSR = mean regression sum of squares
MSE = mean squared error
Important: This is always a one-tailed test
t検定
t=(ˆb1−b1)/standard error
two-tail test(両側検定)とone-tail test(片側検定)
two-tail testを使う例
帰無仮説H0:A=B
対立仮説H1:A≠B
AとBが違うかを調べる。
one-tail testを使う例
帰無仮説H0:A=B
対立仮説H1:A>B or A<B
AがBより大きい、または、小さいかを調べる。
p-value
p値は、帰無仮説を棄却できる最小の有意水準です。P値が小さいほど、検定統計量がその値となることはあまり起こりにくいとされます。例えば、係数がゼロと等しいか、ゼロと等しくないかの仮説を検定する場合、p値と有意水準を比較します。p値が有意水準より小さければ、帰無仮説を棄却することができ、p値が有意水準より大きければ、帰無仮説を棄却できない。
confidence interval:信頼区間
Y±(tc×sf)⇒[ˆY−(tc×sf)<Y<ˆY+(tc×sf)]
tc = two-tailed critical t-value at the desired level of significance with df = n − 2
sf = standard error of the forecast
Log-linモデル
独立変数が線形であるのに対し、従属変数が対数である場合。
ln Yi= b0 + b1Xi + εi
Lin-logモデル
従属変数が線形で、独立変数が対数である場合。
Yi= b0 + b1ln(X)i + εi
Log-logモデル
従属変数と独立変数の両方が対数である。
ln Yi= b0 + b1ln(X)i + εi
Dummy variables:ダミー変数
ダミー変数とは、「オン」や「オフ」のように数字ではないデータを「0」と「1」だけの数値にして数式に代入する変数のこと。