エクセルの回帰分析で出てくる数字の計算は、前回までですべて終わったのだが、ついでなので、単回帰分析の信頼区間も計算したいと思う。重回帰の際の信頼区間もあるようなのだが、今の私の能力では解説できないので、もうちょっと勉強してから記事にしたいと思う。
これまでは、以下のデータを用いて回帰直線の傾きと切片、回帰統計の値、分散分析表、t検定を計算してきた。過去に計算した値がでてくるので、詳細が気になったときは過去の記事を参照してほしい。
(説明変数) |
1 | 2 | 3 | 4 | 5 |
(被説明変数) |
2 | 6 | 6 | 9 | 6 |
(回帰による予想値) |
3.6 | 4.7 | 5.8 | 6.9 | 8 |
回帰直線の信頼区間
そもそも、回帰直線を求めるという操作も、母集団の推定の一部である。母集団の特性を調べた時、XとYにある関係式(母回帰直線)があったとする。当然この(真の)関係式はすべてのサンプルを評価しないと得られないので、その代わりに数点取り出した標本を評価し、標本回帰直線を引いて母集団の特性を予想しているのである。
標本回帰直線は最も確率が高い関係式を示しているが、信頼度(確率)を設定して、母回帰直線が存在するであろう信頼区間を求めることも出来る。
ということでという回帰式に対して、という範囲を推定すればよい。導出については参考サイトを見て頂きたい。(実際にはと考えてから、それぞれの分散を加算して下記式が導かれる。なんで元の式からだと導けないのかわかってないので、誰か教えてください)
これまでのデータから、
傾き:
切片:
xの平均値:
データ数:
の偏差平方和:
残差の分散: (エクセルでは、回帰統計欄にある「標準誤差」の二乗に相当する)
式中にt分布関数があるので、それはエクセルの関数や分布表などを見る必要がある。信頼度:で自由度3の場合であれば、下記式となり、信頼区間をグラフ上にプロットすることが出来る。誤差項にも変数が入っており、がから離れるほど、誤差も大きくなることが分かる。
データ点の信頼区間
さてこうして回帰式の信頼区間を求めることが出来たが、個々のデータの信頼区間になると少しだけ形が変わる。今まで評価していたのはあくまで回帰直線の範囲である。個々のデータは、回帰直線からは外れた位置にあるので、その誤差を考慮する必要がある。なので、と考え一つ誤差項が増えることになる。
そうして下記式が得られる。
これに数値を代入すると、下記式が得られプロットすることが出来る。
補足
回帰式の誤差項は複雑に見えるが、実際は、定数・傾き・回帰そのものの誤差に分割され、非常にシンプルな構造になっている。いずれの誤差も、残差の標準偏差で表されるので、式としてはシンプルに表すことが出来る。
参考
信頼区間の計算:http://www.radio3.ee.uec.ac.jp/ronbun/YK-019_Kukan_Suitei.pdf