エクセルの回帰分析を自力でやってみる（２）回帰統計

　エクセルの回帰分析、今回は回帰統計の値を計算する。

f:id:Chemstat:20200807062459p:plain

　前回は以下のデータを用いて回帰直線の傾きと切片を求めた。今回の計算でも、平均値や偏差平方和は前回の値を用いているので必要であれば参照してほしい。

$x$ (説明変数)	1	2	3	4	5
$y$ （被説明変数）	2	6	6	9	6

　 f:id:Chemstat:20200804164539j:plain

回帰による推定値

　今後解説する項目は、そのほとんどが回帰分析結果の有意性についてになる。それに際し「回帰による予想値」と「実際の値」の差が議論の中心になるため、まず、回帰式 $\begin{align*} y = 1.1 x + 2.5 \end{align*}$ に $x$ を当てはめた時の $y$ の予想値 $\hat{y}$ を計算する。

f:id:Chemstat:20200808063256j:plain

$x$

(説明変数)

$y$

（被説明変数）

$\hat{y}$

（回帰による予想値）

3.6

4.7

5.8

6.9

決定係数 R2

　決定係数R2は、回帰式がどれだけ実際のデータと一致しているかを示す指標である。

　それぞれの $y$ と平均値 $\bar{y}$ の差を全変動とすると、

全変動 $SS_{total}$ 　=　回帰の変動 $SS_{A}$ 　+　残差 $SS_{\varepsilon}$

という関係になる。この時全変動に対して、回帰の変動がどれだけの割合を占めるか（正確にはその二乗和）で計算される。

f:id:Chemstat:20200808234323j:plain

総変動（総平方和）： $\begin{align*} SS_{total} = {\displaystyle \sum_{i=1}^n(y_i-\bar{y})^2 }\scriptsize = (2-5.8)^2 + (6-5.8)^2 + (6-5.8)^2 + (9-5.8)^2 + (6-5.8)^2 \normalsize=24.8 \end{align*}$

残差の変動（誤差平方和）： $\begin{align*} SS_{\varepsilon} = {\displaystyle \sum_{i=1}^n(y_i-\hat{y})^2 }\scriptsize = (2-3.6)^2 + (6-4.7)^2 + (6-5.8)^2 + (9-6.9)^2 + (6-8)^2 \normalsize=12.7 \end{align*}$

決定係数 $\begin{align*} R2 = 1- \frac{ SS_{\varepsilon}}{{SS_{total}}} \scriptsize=1-\frac{ 12.7}{24.8}\normalsize=0.487903...\end{align*}$

重相関 R

　重相関は単回帰分析の相関係数に相当するが、単回帰の場合と異なって負の数になることはない。いまだに相関係数と決定係数の使い分けがいまいちわかっていないのでこれは改めて勉強したい。とりあえず計算過程を下に示しておく。

決定係数 $\begin{align*} R = \sqrt{R2} \scriptsize=\sqrt{0.487903...}\normalsize=0.698501...\end{align*}$

補正 R2

　「自由度修正決定係数」と呼ばれるもので、説明変数が増えるほど決定係数は上がりやすくなる傾向があるため、データ数 $n$ 、切片を含む説明変数の数 $k$ を使って下記のように補正される。

補正 $\begin{align*} R2 = 1-(1-R2)\times\frac{n-1}{n-k} \scriptsize=1-(1-0.487903)\times\frac{5-1}{5-2} \normalsize=0.317204\end{align*}$

標準誤差

　ここでいう標準誤差は、残差の標準偏差を示す。つまり残差がどれくらいばらついているかを示す。

　標準誤差と言えば「平均値がどれだけばらつくか」と理解している人が多いと思う。当然私もそうだった。標準誤差のより正確な定義は「統計量の標準偏差」である。今回は、回帰分析から計算された残差が統計量なので、そのばらつきは標準誤差という名称になる。

f:id:Chemstat:20200808185020j:plain

　計算式は普通の標準偏差とかわらないが、残差の性質上平均値が0になるので、残差 $\varepsilon$ の二乗和を自由度 $n-k$ で割った下記式で表される。

残差の標準誤差 $\begin{align*} \sigma_{\varepsilon}= \sqrt{\frac{S_{\varepsilon}}{(n-k)}} 　\scriptsize=\sqrt{\frac{12.7}{(5-2)}} \normalsize=2.057507\end{align*}$

観測数

　観測数は単純にデータ数なので5になる。

次回は分散分析表編。

chemstat.hatenablog.com

参考

各種計算式： https://keijisaito.info/econ/jp/excel_ols/whole.htm