複数の群の平均値が等しいかどうかを調べる一元配置分散分析(ANOVA)。
エクセルでも行うことが出来る。
共分散分析に比べれば別に難しいことはないのだけれど、備忘録がてらまとめておく。
データの準備
A,B,Cの群からなる下記のデータを用意した。
データ
群A | 3 | 4 | 5 | 4 | |
群B | 5 | 5 | 4 | 6 | 7 |
群C | 3 | 2 | 6 |
分布はこんな感じ。
このそれぞれの群の平均値が等しいか(統計的有意差があるか)を調べていく。
各群の統計量
まずは表の上部の各群のデータ。
ほとんどそのままなのだが、 分散分散は不偏分散なのでn-1で割ることになる。
合計
平均
分散(不偏分散)
分散分析
つづいて分散分析。
比較する変動を図に入れるとこんな感じ。
グループ内変動に対してグループ間変動を比較し、グループ間の差が統計的に有意かを判定する。ちなみに実際は上図の二乗和を変動としているのでご注意ください。
変動(グループ間)
総平均
Aのグループ間変動:
Bのグループ間変動:
Cのグループ間変動:
総グループ間変動:
変動(グループ内)
Aのグループ内変動:
Bのグループ内変動:
Cのグループ内変動:
総グループ内変動:
自由度
グループ間の自由度グループの数
グループ内の自由度データ総数グループの数
分散
グループ間の分散
グループ内の分散
観測された分散比
F検定に相当する。
p値
自由度のF分布においての上側の累積確率に相当するので、0.188になる。Excelやpythonで計算してもらえばよい。
F境界値
自由度のF分布において上側の累積確率が5%となるF値なので、4.256...となる。こちらもExcelやpythonで計算してもらえれば。
F検定
この分散分析で最終的に得られるF値、p値によってグループ間の差が統計的に有意かを調べることが出来る。ちなみに帰無仮説は「グループごとの平均値の差に差がない」である。今回のF=2.083ではp値は0.188なので、棄却域を0.05で取る場合帰無仮説は棄却されず、「グループ間に差はない」ことになる。
それぞれの関係を下図に示した。
分散分析の構造
あらためてこの分散分析の構造を見ると、
グループ間の変動:平均値の差のばらつき
グループ内の変動:データのばらつき
を比較している。一応図にしてみるとこんな感じ。