共分散を感覚的に理解したい

統計でよく出てくる共分散。相関係数を表すパラメーターだということは頭では理解できているのだが、より直感的に理解できるような方法はないか考えてみた。

 

まず分散と共分散の定義はこちら。

xの分散:\begin{align*}\sigma_x^2=\frac{1}{n}\sum(x_i-\bar{x})^2\end{align*}

yの分散:\begin{align*}\sigma_y^2=\frac{1}{n}\sum(y_i-\bar{y})^2\end{align*}

xとyの共分散:\begin{align*}\sigma_{xy}^2=\frac{1}{n}\sum(x_i-\bar{x})(y_i-\bar{y})\end{align*}

 

相関係数rの定義にも含まれており、共分散はxとyの標準偏差相関係数を掛け合わせたもの、ということも出来る。

\begin{align*}\sigma_{xy}^2=\sigma_x\times\sigma_y\times{r}\end{align*}

 

つまり共分散は

xとyの相関係数が1に近ければ(正の相関があれば)共分散は大きくなる

xとyの相関係数がー1に近ければ(負の相関があれば)共分散は大きくなる

xとyの分散が大きければ共分散も大きくなる。

と言える。

 

この特徴を視覚的に理解しやすくするため計算をしてみた。

分散と共分散を変えた時のデータのばらつきをシミュレーションするとこのようになる。

共分散の値の絶対値が大きくなるとxとyの相関が大きくなる。また、共分散が0より大きいと正の相関。0より小さいと負の相関の傾向を示す。

このように、分散共分散行列を見ることで、説明変数や目的変数同士の相関を把握することができる。

 

ちなみに相関の強さだったり近似直線の傾きだったりは、xとyの分散との値に大きく影響されるので、共分散の大小だけで議論することはできない。その点では相関行列の方が便利といえる。