単回帰分析の信頼区間

 みんな大好き回帰分析。自分の組んだ実験で相関が見れると、賭けに勝ったような気になって幸せな気持ちになる。とはいえ実際は判断が難しかったり外れ点にひきずられたりで解釈に悩む場合が多い。

 

 よく見る回帰直線は下のような形だろう。エクセルで数クリックすれば出てくるので、散布図を描いたら、とりあえず回帰直線を引くというのは研究者全員やっているはずだ。

f:id:Chemstat:20200726190722j:plain

 さて、この回帰直線、信頼区間を描ける。信頼区間とは「ある確率で、この範囲に収まるはず」という幅を示したものだ。

 

回帰直線の信頼区間 

 下に示したのは「回帰直線の」95%信頼区間だ。5個のデータを取得し、回帰直線を引く、という操作を100回繰り返すとそのうち95回は信頼区間の範囲に、「(予想値ではない)真の関係式」が収まっている、という事を示している。

 データのパッと見は正の相関に見えるが、信頼区間を見ると傾きが0(相関がない)や負の相関も含まれるため、あまり十分な傾向とは言えない事が分かると思う。

f:id:Chemstat:20200726190453j:plain

回帰直線の信頼区間

 

データ点の信頼区間

 それとは別にデータ点の信頼区間もある(予測区間とも言う)。100個データを取ったら95個はこの範囲に入るという範囲である。混乱しがちなのが、「回帰直線」と「データ点」の信頼区間は別物だということだ。データ点の信頼区間(予測区間)は回帰直線の信頼区間より広くなる。

f:id:Chemstat:20200726190448j:plain

データ点の信頼区間


 このプロットの方法はエクセルで簡単に出来るので改めて記事にしたい。