(統計)(敘述統計) 變異數與標準差

1.未分組資料

母體變異數 $\sigma^2=\cfrac{\displaystyle\sum_{i=1}^{n}(X_i-\mu)^2}{N}$

母體標準差 $\sigma=\sqrt{\sigma^2} $


樣本變異數 $S^2=\cfrac{\displaystyle\sum_{i=1}^{n}(X_i-\mu)^2}{n-1}$

樣本標準差 $S=\sqrt{S^2} $


2.已分組資料

組中點 $m_i,\ i=1,\cdots,k$  ,次數 $f_i,\ i=1,\cdots,k$

母體變異數 $\sigma^2=\cfrac{\displaystyle\sum_{i=1}^{k}f_i(m_i-\mu)^2}{N}$

母體標準差 $\sigma=\sqrt{\sigma^2} $


樣本變異數 $\sigma^2=\cfrac{\displaystyle\sum_{i=1}^{k}f_i(m_i-\overline{X} )^2}{n-1}=\cfrac{\displaystyle\sum_{i=1}^{k}f_i m_i^2-n\overline{X}^2}{n-1}$

樣本標準差 $S=\sqrt{S^2} $



(統計)(敘述統計)偏態係數(skewness coefficinet),峰態係數(kurtosis coefficinet)

偏態係數(skewness coefficinet)

$\alpha_1=\cfrac{\frac{\displaystyle\sum_{i=1}^{N}(X_i-\mu)^3}{N}}{\sigma^3}$


$\alpha_1= $$\left\{
\begin{array}{c}
 >0,右偏 \\ =0,對稱 \\  <0,左偏
\end{array}
\right.  $




(統計)(敘述統計) 經驗法則

 若資料分布呈現對稱鐘形時使用。

1.$68\%$資料落在$(\mu-\sigma,\mu+\sigma)$之間。

2.$95\%$資料落在$(\mu-2\sigma,\mu+2\sigma)$之間。

3.$99.7\%$資料落在$(\mu-3\sigma,\mu+3\sigma)$之間。


常和柴比雪夫不等式比較使用,柴比雪夫不等式不用規定資料分布對稱鐘形。

(統計)(集合論) 差集

 $A-B$ :A之中除去B的部分之集合。


$A-B\equiv A \cap B^{\ c}$



(統計) (敘述統計) 截尾平均數 (Trimmed Mean)

Step1. 計算 $Q_1$ 和 $Q_3$。

Step2. 刪除資料$\lt Q_1$ 和資料 $\gt Q_3$。

Step3. 剩餘資料計算算術平均數。


優點:刪去離群值。
缺點:丟失一半資訊。

(迴歸)簡單迴歸分析

模型: $Y_i=\beta_0+ \beta_1X_i+\varepsilon_i$
假設:$\varepsilon_i \stackrel{iid}{\sim}N(0,\sigma^2)$
1.常態性
2.變異數齊一性
3.獨立
4.$E(\varepsilon_i)=0$
5.模型之正確性

$\beta_0+ \beta_1X_i$ is constant. $Y_i$ is r.v.
母體迴歸線: $E(Y\vert X)=E(Y)=\beta_0+\beta_1X$
因為$X$為已知常數 $\implies E(Y\vert X)=E(Y)$
樣本迴歸線:  $\hat{Y_i}=\hat{\beta_0}+\hat{\beta_1}X_i$
樣本迴歸線估計母體迴歸線
 $\hat{Y_i}$ 估計$E(Y_i)$,$\hat{\beta_0}$估計$\beta_0$,$\hat{\beta_1}$估計$\beta_1$
$e_i=Y_i-\hat{Y_i}$ 估計 $\varepsilon_i$
$\hat{\sigma^2}=\cfrac{SSE}{n-2}=MSE$

最小平方法OLS

$min\displaystyle\sum_{i=1}^{n}e_i^2=min\displaystyle\sum_{i=1}^{n}(Y_i-\hat{Y_i})^2$
令$\cfrac{\partial \displaystyle\sum_{i=1}^{n}e_i^2}{\partial \hat{\beta_0}}=\displaystyle\sum_{i=1}^{n}[2(Y_i-\beta_0-\beta_1X_i)(-1)]=0$
令$\cfrac{\partial \displaystyle\sum_{i=1}^{n}e_i^2}{\partial \hat{\beta_1}}=\displaystyle\sum_{i=1}^{n}[2(Y_i-\beta_0-\beta_1X_i)(-X_i)]=0$


正規方程式

$\left\{\begin{array}{}
 n\hat{\beta_0}&+\sum{}X_i \hat{\beta_1}&=\sum{}Y_i \\  \sum{}X_i\hat{\beta_0}&+\sum{}X_i^2\hat{\beta_1}&=\sum{}X_iY_i\\-n \sigma^2&+\sum (Y_i-\beta_0-\beta_1X_i)^2&=0
\end{array}
\right.$

正規方程式之解

$\left\{\begin{array}{}
 \hat{\beta_1}&=\cfrac{SS_{XY}}{SS_X} \\  \hat{\beta_0}&=\overline{Y}-\hat{\beta_1}\overline{X}\\ \hat{\sigma_{MLE}^2}&=\cfrac{\sum e_i^2}{n}
\end{array}
\right.$

$\hat{\beta_1}=r_{XY}\cfrac{\sqrt{SS_Y}}{\sqrt{SS_X}}=r_{XY}\cfrac{S_Y}{S_X}$

抽樣分配

$\hat{\beta_1} \sim N(\beta_1,\frac{\sigma^2}{SS_X})$

$\hat{\beta_0} \sim N(\beta_0,(\frac{1}{n}+\frac{\overline{X}^2 }{SS_X})\sigma^2)$

迴歸模型 $Y_i\stackrel{ indep.}{\sim}N(\beta_0+\beta_1X_i,\sigma^2) $

樣本迴歸線 $\hat{Y_i}\sim N(\beta_0+\beta_1X_i,(\frac{1}{n}+\frac{(X_i-\overline{X})^2 }{SS_X})\sigma^2)$


配適度

$SST=\sum(Y_i-\overline{Y})^2=SS_Y$

$SSR=\sum(\hat{Y_i}-\overline{Y})^2=\hat{\beta_1}^2SS_X=\hat{\beta_1}SS_{XY}$

$SSE=\sum(Y_i-\hat{Y_i})^2=\sum e_i^2=SST-SSR$

判定係數

$R^2=\cfrac{SSR}{SST}=1-\cfrac{SSE}{SST}$

$r^2(相關係數)=(\cfrac{SS_{XY}}{\sqrt{SS_X}\sqrt{SS_Y}})^2=R^2$

意義:表示考慮之自變數及模型可以解釋$Y$之變異達$R^2$%

信賴區間

$E(Y|x=x_0)$之信賴區間$(1-\alpha)$

$(\hat{\beta_0}+\hat{\beta_1}x_0-t_{\frac{\alpha}{2}(n-2)}\sqrt{MSE(\cfrac{1}{n}+\cfrac{(x_0-\overline{x})^2}{SS_X})},\hat{\beta_0}+\hat{\beta_1}x_0+t_{\frac{\alpha}{2}(n-2)}\sqrt{MSE(\cfrac{1}{n}+\cfrac{(x_0-\overline{x})^2}{SS_X})})$

$Y|x=x_0$之預測區間$(1-\alpha)$

$(\hat{\beta_0}+\hat{\beta_1}x_0-t_{\frac{\alpha}{2}(n-2)}\sqrt{MSE(1+\cfrac{1}{n}+\cfrac{(x_0-\overline{x})^2}{SS_X})},\hat{\beta_0}+\hat{\beta_1}x_0+t_{\frac{\alpha}{2}(n-2)}\sqrt{MSE(1+\cfrac{1}{n}+\cfrac{(x_0-\overline{x})^2}{SS_X})})$


假設檢定

以下簡迴歸成立。

$H_0: \beta_1=0$ 和 $H_0:\rho=0$ 等價

三種檢定統計量檢定 $H_0: \beta_1=0$

$T=\cfrac{\hat{\beta_1}-0}{\sqrt{\frac{MSE}{SS_X}}}\sim t_{(n-2)}$

$F=\cfrac{MSR}{MSE}\sim F_{(1,n-2)}$

$T=\cfrac{r\sqrt{n-2}}{\sqrt{1-r^2}}\sim t_{(n-2)}$


性質

1.樣本迴歸線$\hat{Y}$通過點$(\overline{X},\overline{Y})$。

2.$\overline{\hat{Y}}=\overline{Y}$

3.$\sum e_i=0$

4.$\sum e_iX_i=0$

5.$e_i$和$\hat{Y_i}$無關。

6.$e_i$和$X_i$無關。

7.$Cov(\overline{Y},\hat{\beta_1})=0$

8.$Cov(\hat{\beta_0},\hat{\beta_1})=-\cfrac{\overline{X}}{SS_X}\sigma^2$


缺適度檢定

存在離群值使得可能樣本迴歸線為線性,但母體迴歸線為非線性。

$H_0:模型是線性,H_1模型是非線性。$

$SSE=SSLF+SSPE$

$SSLF=\sum\sum(\overline{Y_i}-\hat{Y_i})^2$   
$SSPE=\sum\sum(Y_{ij}-\overline{Y_i})^2$        

$d.f(SSLF)=a-k-1$
$d.f(SSPF)=n-a$  $a=自變數(X)有幾個觀察值$

$MSLF=\cfrac{SSLF}{a-k-1}$
$MSPE=\cfrac{SSPE}{n-a}$

$F_a^*=\cfrac{MSLF}{MSPE}$


逆迴歸

$Y=\beta_0+\beta_1X+\varepsilon  $

$X=\alpha_0+\alpha_1Y+\delta $

$\hat{\beta_1}\hat{\alpha_1}=\cfrac{SS_{XY}^2}{SS_XSS_Y}=r_{XY}^2$


迴歸分析無法驗證因果關係

因為$R_{YX}^2=R_{XY}^2$











附錄

附錄 A 集合 (APPENDIX A SETS) 一個 集合 (set) 是一些被稱為該集合之 元素 (elements) 的物件的聚集。如果 x 是集合 A 的一個元素,那麼我們寫作 x \in A ;否則,我們寫作 x \notin A 。例如,如果 Z...