統計でよく出てくる共分散。相関係数を表すパラメーターだということは頭では理解できているのだが、より直感的に理解できるような方法はないか考えてみた。
まず分散と共分散の定義はこちら。
xの分散:
yの分散:
xとyの共分散:
相関係数rの定義にも含まれており、共分散はxとyの標準偏差に相関係数を掛け合わせたもの、ということも出来る。
つまり共分散は
xとyの相関係数が1に近ければ(正の相関があれば)共分散は大きくなる
xとyの相関係数がー1に近ければ(負の相関があれば)共分散は大きくなる
xとyの分散が大きければ共分散も大きくなる。
と言える。
この特徴を視覚的に理解しやすくするため計算をしてみた。
分散と共分散を変えた時のデータのばらつきをシミュレーションするとこのようになる。
共分散の値の絶対値が大きくなるとxとyの相関が大きくなる。また、共分散が0より大きいと正の相関。0より小さいと負の相関の傾向を示す。
このように、分散共分散行列を見ることで、説明変数や目的変数同士の相関を把握することができる。
ちなみに相関の強さだったり近似直線の傾きだったりは、xとyの分散との値に大きく影響されるので、共分散の大小だけで議論することはできない。その点では相関行列の方が便利といえる。