筆記: 8月 2023

模型: $Y_i=\beta_0+ \beta_1X_i+\varepsilon_i$

假設:$\varepsilon_i \stackrel{iid}{\sim}N(0,\sigma^2)$

1.常態性

2.變異數齊一性

3.獨立

4.$E(\varepsilon_i)=0$

5.模型之正確性

$\beta_0+ \beta_1X_i$ is constant. $Y_i$ is r.v.
母體迴歸線: $E(Y\vert X)=E(Y)=\beta_0+\beta_1X$
因為$X$為已知常數 $\implies E(Y\vert X)=E(Y)$
樣本迴歸線: $\hat{Y_i}=\hat{\beta_0}+\hat{\beta_1}X_i$

樣本迴歸線估計母體迴歸線
$\hat{Y_i}$ 估計$E(Y_i)$，$\hat{\beta_0}$估計$\beta_0$，$\hat{\beta_1}$估計$\beta_1$
$e_i=Y_i-\hat{Y_i}$ 估計 $\varepsilon_i$

$\hat{\sigma^2}=\cfrac{SSE}{n-2}=MSE$

最小平方法OLS

$min\displaystyle\sum_{i=1}^{n}e_i^2=min\displaystyle\sum_{i=1}^{n}(Y_i-\hat{Y_i})^2$

令$\cfrac{\partial \displaystyle\sum_{i=1}^{n}e_i^2}{\partial \hat{\beta_0}}=\displaystyle\sum_{i=1}^{n}[2(Y_i-\beta_0-\beta_1X_i)(-1)]=0$

令$\cfrac{\partial \displaystyle\sum_{i=1}^{n}e_i^2}{\partial \hat{\beta_1}}=\displaystyle\sum_{i=1}^{n}[2(Y_i-\beta_0-\beta_1X_i)(-X_i)]=0$

正規方程式

$\left\{\begin{array}{}
n\hat{\beta_0}&+\sum{}X_i \hat{\beta_1}&=\sum{}Y_i \\ \sum{}X_i\hat{\beta_0}&+\sum{}X_i^2\hat{\beta_1}&=\sum{}X_iY_i\\-n \sigma^2&+\sum (Y_i-\beta_0-\beta_1X_i)^2&=0
\end{array}
\right.$

正規方程式之解

$\left\{\begin{array}{}
\hat{\beta_1}&=\cfrac{SS_{XY}}{SS_X} \\ \hat{\beta_0}&=\overline{Y}-\hat{\beta_1}\overline{X}\\ \hat{\sigma_{MLE}^2}&=\cfrac{\sum e_i^2}{n}
\end{array}
\right.$

$\hat{\beta_1}=r_{XY}\cfrac{\sqrt{SS_Y}}{\sqrt{SS_X}}=r_{XY}\cfrac{S_Y}{S_X}$

抽樣分配

$\hat{\beta_1} \sim N(\beta_1,\frac{\sigma^2}{SS_X})$

$\hat{\beta_0} \sim N(\beta_0,(\frac{1}{n}+\frac{\overline{X}^2 }{SS_X})\sigma^2)$

迴歸模型 $Y_i\stackrel{ indep.}{\sim}N(\beta_0+\beta_1X_i,\sigma^2) $

樣本迴歸線 $\hat{Y_i}\sim N(\beta_0+\beta_1X_i,(\frac{1}{n}+\frac{(X_i-\overline{X})^2 }{SS_X})\sigma^2)$

配適度

$SST=\sum(Y_i-\overline{Y})^2=SS_Y$

$SSR=\sum(\hat{Y_i}-\overline{Y})^2=\hat{\beta_1}^2SS_X=\hat{\beta_1}SS_{XY}$

$SSE=\sum(Y_i-\hat{Y_i})^2=\sum e_i^2=SST-SSR$

判定係數

$R^2=\cfrac{SSR}{SST}=1-\cfrac{SSE}{SST}$

$r^2(相關係數)=(\cfrac{SS_{XY}}{\sqrt{SS_X}\sqrt{SS_Y}})^2=R^2$

意義:表示考慮之自變數及模型可以解釋$Y$之變異達$R^2$%

信賴區間

$E(Y|x=x_0)$之信賴區間$(1-\alpha)$

$(\hat{\beta_0}+\hat{\beta_1}x_0-t_{\frac{\alpha}{2}(n-2)}\sqrt{MSE(\cfrac{1}{n}+\cfrac{(x_0-\overline{x})^2}{SS_X})},\hat{\beta_0}+\hat{\beta_1}x_0+t_{\frac{\alpha}{2}(n-2)}\sqrt{MSE(\cfrac{1}{n}+\cfrac{(x_0-\overline{x})^2}{SS_X})})$

$Y|x=x_0$之預測區間$(1-\alpha)$

$(\hat{\beta_0}+\hat{\beta_1}x_0-t_{\frac{\alpha}{2}(n-2)}\sqrt{MSE(1+\cfrac{1}{n}+\cfrac{(x_0-\overline{x})^2}{SS_X})},\hat{\beta_0}+\hat{\beta_1}x_0+t_{\frac{\alpha}{2}(n-2)}\sqrt{MSE(1+\cfrac{1}{n}+\cfrac{(x_0-\overline{x})^2}{SS_X})})$

假設檢定

以下簡迴歸成立。

$H_0: \beta_1=0$ 和 $H_0:\rho=0$ 等價

三種檢定統計量檢定 $H_0: \beta_1=0$

$T=\cfrac{\hat{\beta_1}-0}{\sqrt{\frac{MSE}{SS_X}}}\sim t_{(n-2)}$

$F=\cfrac{MSR}{MSE}\sim F_{(1,n-2)}$

$T=\cfrac{r\sqrt{n-2}}{\sqrt{1-r^2}}\sim t_{(n-2)}$

性質

1.樣本迴歸線$\hat{Y}$通過點$(\overline{X},\overline{Y})$。

2.$\overline{\hat{Y}}=\overline{Y}$

3.$\sum e_i=0$

4.$\sum e_iX_i=0$

5.$e_i$和$\hat{Y_i}$無關。

6.$e_i$和$X_i$無關。

7.$Cov(\overline{Y},\hat{\beta_1})=0$

8.$Cov(\hat{\beta_0},\hat{\beta_1})=-\cfrac{\overline{X}}{SS_X}\sigma^2$

缺適度檢定

存在離群值使得可能樣本迴歸線為線性，但母體迴歸線為非線性。

$H_0:模型是線性，H_1模型是非線性。$

$SSE=SSLF+SSPE$

$SSLF=\sum\sum(\overline{Y_i}-\hat{Y_i})^2$

$SSPE=\sum\sum(Y_{ij}-\overline{Y_i})^2$

$d.f(SSLF)=a-k-1$

$d.f(SSPF)=n-a$ $a=自變數(X)有幾個觀察值$

$MSLF=\cfrac{SSLF}{a-k-1}$

$MSPE=\cfrac{SSPE}{n-a}$

$F_a^*=\cfrac{MSLF}{MSPE}$

逆迴歸

$Y=\beta_0+\beta_1X+\varepsilon $

$X=\alpha_0+\alpha_1Y+\delta $

$\hat{\beta_1}\hat{\alpha_1}=\cfrac{SS_{XY}^2}{SS_XSS_Y}=r_{XY}^2$

迴歸分析無法驗證因果關係

因為$R_{YX}^2=R_{XY}^2$

筆記

(統計)(敘述統計) 變異數與標準差

1.未分組資料

2.已分組資料

(統計)(敘述統計)偏態係數(skewness coefficinet)，峰態係數(kurtosis coefficinet)

偏態係數(skewness coefficinet)

(統計)(敘述統計) 經驗法則

(統計)(集合論) 差集

(統計) (敘述統計) 截尾平均數 (Trimmed Mean)

(迴歸)簡單迴歸分析