模型: $Y_i=\beta_0+ \beta_1X_i+\varepsilon_i$
假設:$\varepsilon_i \stackrel{iid}{\sim}N(0,\sigma^2)$
1.常態性
2.變異數齊一性
3.獨立
4.$E(\varepsilon_i)=0$
5.模型之正確性
$\beta_0+ \beta_1X_i$ is constant. $Y_i$ is r.v.
母體迴歸線: $E(Y\vert X)=E(Y)=\beta_0+\beta_1X$
因為$X$為已知常數 $\implies E(Y\vert X)=E(Y)$
樣本迴歸線: $\hat{Y_i}=\hat{\beta_0}+\hat{\beta_1}X_i$
樣本迴歸線估計母體迴歸線
$\hat{Y_i}$ 估計$E(Y_i)$,$\hat{\beta_0}$估計$\beta_0$,$\hat{\beta_1}$估計$\beta_1$
$e_i=Y_i-\hat{Y_i}$ 估計 $\varepsilon_i$
$\hat{\sigma^2}=\cfrac{SSE}{n-2}=MSE$
最小平方法OLS
$min\displaystyle\sum_{i=1}^{n}e_i^2=min\displaystyle\sum_{i=1}^{n}(Y_i-\hat{Y_i})^2$
令$\cfrac{\partial \displaystyle\sum_{i=1}^{n}e_i^2}{\partial \hat{\beta_0}}=\displaystyle\sum_{i=1}^{n}[2(Y_i-\beta_0-\beta_1X_i)(-1)]=0$
令$\cfrac{\partial \displaystyle\sum_{i=1}^{n}e_i^2}{\partial \hat{\beta_1}}=\displaystyle\sum_{i=1}^{n}[2(Y_i-\beta_0-\beta_1X_i)(-X_i)]=0$
正規方程式
$\left\{\begin{array}{}
n\hat{\beta_0}&+\sum{}X_i \hat{\beta_1}&=\sum{}Y_i \\ \sum{}X_i\hat{\beta_0}&+\sum{}X_i^2\hat{\beta_1}&=\sum{}X_iY_i\\-n \sigma^2&+\sum (Y_i-\beta_0-\beta_1X_i)^2&=0
\end{array}
\right.$
正規方程式之解
$\left\{\begin{array}{}
\hat{\beta_1}&=\cfrac{SS_{XY}}{SS_X} \\ \hat{\beta_0}&=\overline{Y}-\hat{\beta_1}\overline{X}\\ \hat{\sigma_{MLE}^2}&=\cfrac{\sum e_i^2}{n}
\end{array}
\right.$
$\hat{\beta_1}=r_{XY}\cfrac{\sqrt{SS_Y}}{\sqrt{SS_X}}=r_{XY}\cfrac{S_Y}{S_X}$
抽樣分配
$\hat{\beta_1} \sim N(\beta_1,\frac{\sigma^2}{SS_X})$
$\hat{\beta_0} \sim N(\beta_0,(\frac{1}{n}+\frac{\overline{X}^2 }{SS_X})\sigma^2)$
迴歸模型 $Y_i\stackrel{ indep.}{\sim}N(\beta_0+\beta_1X_i,\sigma^2) $
樣本迴歸線 $\hat{Y_i}\sim N(\beta_0+\beta_1X_i,(\frac{1}{n}+\frac{(X_i-\overline{X})^2 }{SS_X})\sigma^2)$
配適度
$SST=\sum(Y_i-\overline{Y})^2=SS_Y$
$SSR=\sum(\hat{Y_i}-\overline{Y})^2=\hat{\beta_1}^2SS_X=\hat{\beta_1}SS_{XY}$
$SSE=\sum(Y_i-\hat{Y_i})^2=\sum e_i^2=SST-SSR$
判定係數
$R^2=\cfrac{SSR}{SST}=1-\cfrac{SSE}{SST}$
$r^2(相關係數)=(\cfrac{SS_{XY}}{\sqrt{SS_X}\sqrt{SS_Y}})^2=R^2$
意義:表示考慮之自變數及模型可以解釋$Y$之變異達$R^2$%
信賴區間
$E(Y|x=x_0)$之信賴區間$(1-\alpha)$
$(\hat{\beta_0}+\hat{\beta_1}x_0-t_{\frac{\alpha}{2}(n-2)}\sqrt{MSE(\cfrac{1}{n}+\cfrac{(x_0-\overline{x})^2}{SS_X})},\hat{\beta_0}+\hat{\beta_1}x_0+t_{\frac{\alpha}{2}(n-2)}\sqrt{MSE(\cfrac{1}{n}+\cfrac{(x_0-\overline{x})^2}{SS_X})})$
$Y|x=x_0$之預測區間$(1-\alpha)$
$(\hat{\beta_0}+\hat{\beta_1}x_0-t_{\frac{\alpha}{2}(n-2)}\sqrt{MSE(1+\cfrac{1}{n}+\cfrac{(x_0-\overline{x})^2}{SS_X})},\hat{\beta_0}+\hat{\beta_1}x_0+t_{\frac{\alpha}{2}(n-2)}\sqrt{MSE(1+\cfrac{1}{n}+\cfrac{(x_0-\overline{x})^2}{SS_X})})$
假設檢定
以下簡迴歸成立。
$H_0: \beta_1=0$ 和 $H_0:\rho=0$ 等價
三種檢定統計量檢定 $H_0: \beta_1=0$
$T=\cfrac{\hat{\beta_1}-0}{\sqrt{\frac{MSE}{SS_X}}}\sim t_{(n-2)}$
$F=\cfrac{MSR}{MSE}\sim F_{(1,n-2)}$
$T=\cfrac{r\sqrt{n-2}}{\sqrt{1-r^2}}\sim t_{(n-2)}$
性質
1.樣本迴歸線$\hat{Y}$通過點$(\overline{X},\overline{Y})$。
2.$\overline{\hat{Y}}=\overline{Y}$
3.$\sum e_i=0$
4.$\sum e_iX_i=0$
5.$e_i$和$\hat{Y_i}$無關。
6.$e_i$和$X_i$無關。
7.$Cov(\overline{Y},\hat{\beta_1})=0$
8.$Cov(\hat{\beta_0},\hat{\beta_1})=-\cfrac{\overline{X}}{SS_X}\sigma^2$
缺適度檢定
存在離群值使得可能樣本迴歸線為線性,但母體迴歸線為非線性。
$H_0:模型是線性,H_1模型是非線性。$
$SSE=SSLF+SSPE$
$SSLF=\sum\sum(\overline{Y_i}-\hat{Y_i})^2$
$SSPE=\sum\sum(Y_{ij}-\overline{Y_i})^2$
$d.f(SSLF)=a-k-1$
$d.f(SSPF)=n-a$ $a=自變數(X)有幾個觀察值$
$MSLF=\cfrac{SSLF}{a-k-1}$
$MSPE=\cfrac{SSPE}{n-a}$
$F_a^*=\cfrac{MSLF}{MSPE}$
逆迴歸
$Y=\beta_0+\beta_1X+\varepsilon $
$X=\alpha_0+\alpha_1Y+\delta $
$\hat{\beta_1}\hat{\alpha_1}=\cfrac{SS_{XY}^2}{SS_XSS_Y}=r_{XY}^2$
迴歸分析無法驗證因果關係
因為$R_{YX}^2=R_{XY}^2$
留言
張貼留言