エクセルの回帰分析を自力でやってみる(5)回帰直線の信頼区間

 エクセルの回帰分析で出てくる数字の計算は、前回までですべて終わったのだが、ついでなので、単回帰分析の信頼区間も計算したいと思う。重回帰の際の信頼区間もあるようなのだが、今の私の能力では解説できないので、もうちょっと勉強してから記事にしたいと思う。

f:id:Chemstat:20200812020750p:plain


f:id:Chemstat:20200810204538p:plain

  これまでは、以下のデータを用いて回帰直線の傾きと切片回帰統計の値分散分析表t検定を計算してきた。過去に計算した値がでてくるので、詳細が気になったときは過去の記事を参照してほしい。

 f:id:Chemstat:20200804164539j:plain 

 x

(説明変数)

1 2 3 4 5

 y

(被説明変数)

2 6 6 9 6

 \hat{y}

(回帰による予想値)

3.6 4.7 5.8 6.9 8

 

 回帰直線の信頼区間

 そもそも、回帰直線を求めるという操作も、母集団の推定の一部である。母集団の特性を調べた時、XとYにある関係式(母回帰直線)があったとする。当然この(真の)関係式はすべてのサンプルを評価しないと得られないので、その代わりに数点取り出した標本を評価し、標本回帰直線を引いて母集団の特性を予想しているのである。

 標本回帰直線は最も確率が高い関係式を示しているが、信頼度(確率)を設定して、母回帰直線が存在するであろう信頼区間を求めることも出来る。

f:id:Chemstat:20200812005428j:plain

ということで y = \hat{b}x+\hat{a}という回帰式に対して、 y = (\hat{b}\pm誤差)x+(\hat{a}\pm誤差)という範囲を推定すればよい。導出については参考サイトを見て頂きたい。(実際にはy=(\hat{b}\pm誤差)(x-\bar{x})+(\bar{y}\pm誤差)と考えてから、それぞれの分散を加算して下記式が導かれる。なんで元の式からだと導けないのかわかってないので、誰か教えてください)

 

y=\begin{align*} \hat{b}x+\hat{a} \pm t(n-2,\frac{1-\alpha}{2}) \sqrt{\left(\frac{1}{n}+\frac{ (x-\bar{x})^2 }{S_{xx}}\right)\sigma_{\varepsilon}^2}\end{align*}

 これまでのデータから、

傾き:\hat{b}=1.1

切片:\hat{a}=2.5

xの平均値:\bar{x}=3

データ数:n=5

 xの偏差平方和: \begin{align*} S_{xx} = {\displaystyle \sum_{i=1}^n(x_i-\bar{x})^2 }\scriptsize =  (1-3)^2 + (2-3)^2 + (3-3)^2 + (4-3)^2 + (5-3)^2 \normalsize=10 \end{align*}

残差の分散:\sigma_{\varepsilon}^2=4.23333 (エクセルでは、回帰統計欄にある「標準誤差」の二乗に相当する)

 y=\begin{align*} 1.1 \times x+2.5 \pm t(5-2,\frac{1-\alpha}{2}\%) \sqrt { \left( \frac{1}{5}+\frac{ (x-3)^2 }{10}\right) \times (4.233333)} \end{align*}

  式中にt分布関数があるので、それはエクセルの関数や分布表などを見る必要がある。信頼度:\alpha=95\%で自由度3の場合であれば、下記式となり、信頼区間をグラフ上にプロットすることが出来る。誤差項にも変数xが入っており、x\bar{x}から離れるほど、誤差も大きくなることが分かる。

 y=\begin{align*} 1.1 \times x+2.5 \pm 3.182 \sqrt { \left( \frac{1}{5}+\frac{ (x-3)^2 }{10}\right) \times (4.233333)} \end{align*}

 f:id:Chemstat:20200812020750p:plain

データ点の信頼区間

  さてこうして回帰式の信頼区間を求めることが出来たが、個々のデータの信頼区間になると少しだけ形が変わる。今まで評価していたのはあくまで回帰直線の範囲である。個々のデータは、回帰直線からは外れた位置にあるので、その誤差\varepsilonを考慮する必要がある。なので、 y+誤差 = (\hat{b}\pm誤差)x+(\hat{a}\pm誤差)と考え一つ誤差項が増えることになる。

f:id:Chemstat:20200812023910j:plain


 そうして下記式が得られる。

y=\begin{align*} \hat{b}x+\hat{a} \pm t(n-2,\frac{1-\alpha}{2}) \sqrt{\left(1+\frac{1}{n}+\frac{ (x-\bar{x})^2 }{S_{xx}}\right)\sigma_{\varepsilon}^2}\end{align*} 

 これに数値を代入すると、下記式が得られプロットすることが出来る。

 y=\begin{align*} 1.1 \times x+2.5 \pm 3.182 \sqrt { \left( 1+\frac{1}{5}+\frac{ (x-3)^2 }{10}\right) \times (4.233333)} \end{align*}

f:id:Chemstat:20200812025118p:plain

補足

 回帰式の誤差項は複雑に見えるが、実際は、定数・傾き・回帰そのものの誤差に分割され、非常にシンプルな構造になっている。いずれの誤差も、残差の標準偏差 \sigma_{\varepsilon}で表されるので、式としてはシンプルに表すことが出来る。

f:id:Chemstat:20200812044445j:plain




参考

信頼区間の計算:http://www.radio3.ee.uec.ac.jp/ronbun/YK-019_Kukan_Suitei.pdf