エクセルの回帰分析を自力でやってみる（４）t検定

　エクセルの回帰分析、今回は係数のt検定について計算する。

f:id:Chemstat:20200810204538p:plain

　これまでは、以下のデータを用いて回帰直線の傾きと切片、回帰統計の値、分散分析表を計算してきた。今回の計算でも、平均値や偏差平方和等で今まで計算した値を用いているので、必要であれば参照してほしい。

　 f:id:Chemstat:20200804164539j:plain

$x$

(説明変数)

$y$

（被説明変数）

$\hat{y}$

（回帰による予想値）

3.6

4.7

5.8

6.9

係数

　説明変数 $x$ の係数 $\hat{b}$ 、切片の係数 $\hat{a}$ は（１）で求めた通り下記数値になる。　

切片の係数： $\begin{align*} \hat{a} = 2.5\end{align*}$

説明変数 $x$ の係数： $\begin{align*} \hat{b} = 1.1\end{align*}$

標準誤差

　この標準誤差では、「説明変数 $x$ の係数」と「切片の係数」という統計値について標準偏差を求め、ばらつきを評価している。計算としては残差の分散を用いて下記で表される。

　残差の分散 $\begin{align*} \sigma_{\varepsilon}^2 = \frac{SS_{\varepsilon}}{(n-k)} 　\scriptsize=\frac{12.7}{(5-2)} \normalsize=4.23333\end{align*}$

　 $\hat{b}$ の標準誤差 $\begin{align*} \sigma_{\hat{b}} = \sqrt {\frac{\sigma_{\varepsilon}^2}{S_{xx}}} \scriptsize= \sqrt{\frac{4.233333}{10}}\normalsize= 0.650641\end{align*}$

　 $\hat{a}$ の標準誤差 $\begin{align*} \sigma_{\hat{a}} = \sqrt{\sigma_{\varepsilon}^2 \left(\frac{1}{n}+\frac{\bar{x}^2}{S_{xx}}\right)} =\scriptsize \sqrt{4.233333\times \left(\frac{1}{5}+\frac{3^2}{10}\right)} \normalsize= 2.157931...\end{align*}$

t値

　さて、ここで標準誤差を計算したのは、係数 $\hat{b}$ 、切片 $\hat{a}$ について、t検定を行うためである。

　一般に、得られた標本の平均値が、 $\mu$ と有意に異なるか、を調べる際は下記式でt値を求める。

$t = \begin{align*}\frac{標本平均-\mu}{標準誤差}\end{align*}$

　ここで行うt検定は係数 $\hat{b}$ と切片の係数 $\hat{a}$ が「0と等しいか」を調べるので、それぞれの $\mu=0$ としてそれぞれのt値を求めることが出来る。

説明変数 $x$ の係数のt値： $\begin{align*} t_{\hat{b}} = \frac{\hat{b}-0}{\sigma_{\hat{b}} } =\scriptsize \frac{1.1-0}{0.650641}\normalsize= 1.690641...\end{align*}$

切片のt値： $\begin{align*} t_{\hat{a}} = \frac{\hat{a}-0}{\sigma_{\hat{a}}} = \scriptsize \frac{2.5-0}{2.157931} \normalsize= 1.158517...\end{align*}$

これが $n-2$ のt分布に従う事が分かっており、帰無仮説「変数xの係数が0」「切片が0」を検定することが出来る。

　ちなみに今回のデータでは、帰無仮説の採択域にあり、係数や切片が0であることを否定できなかった。

f:id:Chemstat:20200811001625j:plain

p値

　p値は自由度 $n-2$ のt分布から導かれるp値に相当し $\hat{b}$ では $0.189485$ 、 $\hat{a}$ では $0.330499$ が得られる。t値は正負どちらの値もとるので、両側の面積を求めていることに注意してほしい。

　ちなみにこれは単回帰なので、t検定の帰無仮説 $\hat{b}=0$ は、前回説明したF検定の帰無仮説「回帰による変動が0」と等しくなる。実際p値を見てみると、違う過程で導かれているにも関わらず、同じ値(18.9%)を示していることが分かる。

f:id:Chemstat:20200811020004j:plain

上限、下限

　統計量tは係数 $\hat{b}$ 、切片の係数 $\hat{a}$ についての区間推定にも用いることが出来る。自由度 $n-2$ のt分布に従うため、下記式で95%信頼区間時の上限と下限が得られる。

　 $\begin{align*} -t_{2.5\%}(n-2) \leqq t_{\hat{b}} \leqq t_{2.5\%}(n-2) \end{align*}$

　 $\begin{align*} -t_{2.5\%}(3) \leqq \frac{\hat{b}-\mu_{\hat{b}}}{\sigma_{\hat{b}}} \leqq t_{2.5\%}(3) \end{align*}$

　 $\begin{align*} -3.182446 \leqq \frac{1.1-\mu_{\hat{b}}}{0.650641} \leqq 3.182446 \end{align*}$

　 $\begin{align*} -3.182446\times0.650641+1.1 \leqq \mu_{\hat{b}} \leqq 3.182446\times0.650641+1.1 \end{align*}$

　 $\begin{align*} -0.97063 \leqq \mu_{\hat{b}} \leqq 3.170629 \end{align*}$

　 $\begin{align*} -t_{2.5\%}(3) \leqq \frac{\hat{a}-\mu_{\hat{a}}}{\sigma_{\hat{a}}} \leqq t_{2.5\%}(3) \end{align*}$

　 $\begin{align*} -3.182446 \leqq \frac{2.5-\mu_{\hat{a}}}{2.157931} \leqq 3.182446 \end{align*}$

　 $\begin{align*} -4.3675 \leqq \mu_{\hat{a}} \leqq 9.3675 \end{align*}$

　このようにして、回帰分析を説明する事が出来た。いざ計算してみるとなんとか理解できる範囲の理論に基づいて求められている事が分かった。理論部分の詳細が気になった人は参考サイトを見ると理解が深まってよいと思う。

本当はこれで終わりだが、ついでなので、次回は回帰式の信頼区間も計算する。

chemstat.hatenablog.com

参考

標準誤差の計算：http://racco.mikeneko.jp/Kougi/10s/AS/AS04pr.pdf

標準誤差の計算②：https://staff.aist.go.jp/t.ihara/reg.html