前回に続き二元配置分散分析(two-way ANOVA)。
データの準備
繰り返しのある二元配置分散分析としてこちらのデータを使用する。
要素1:a, b, c
要素2:A, B
分散分析(標本・列)
今回は交互作用の効果をF検定進めていく。
下記式でいうところのを求める。
交互作用の分散
交互作用を一言でいうと「二つの因子が組み合わさったときに追加で出現する効果」である。ある成分をA→Bに変えた時、もう一方の成分がaかbかで異なる効果が現れる。
分散分析はその過程で各要素の効果を求めることになる。平均値に単純にそれぞれの効果を足した値と、実際のデータのずれが交互作用と言える。
下図をみてピンとくる方もいるかと思うが、やってることは誤差の計算とほぼ同じである。データ数が各群1の場合だと、誤差と交互作用は分離できなくなってしまうので、交互作用が気になる場合はデータ数を増やして評価する必要がある。
ちなみに化学材料の統計分析をやっているとこの交互作用に多分に悩まされることになる。二成分に限らず、三成分・四成分といった複数成分の交互作用も平気で出てくるし、ひとたび交互作用が出てしまうと成分単独の効果が議論しづらくなってしまう。結局交互作用が出づらい実験系を組むしかなくなるケースが多い。なにかおすすめの方法があったら是非教えてほしい。
交互作用の分散
では早速交互作用の項を求めていくのだが、計算の仕方は非常に簡単で、各データ群の平均値と、標本・列の効果から計算される予想値の差分が交互作用に相当する。図にするとこんな感じ。
ということで早速計算していこう。数が多いけれどやってることは同じ計算の繰り返しなので適当に読み流してください。計算には前回の記事で計算した値を用いているので、導出が分からなくなったらそちらを見てみてください。
分散分析を行うため、続いてはこのの分散を求める。
エクセルではそれぞれの効果の二乗和を「変動」と呼び、それを自由度で割ったものを「分散」と呼んでいる。
変動
自由度
分散
交互作用のF検定
観測された分散比
これがF値に相当する。
p値
自由度のF分布においての上側の累積確率に相当するので、0.786になる。Excelやpythonで計算してもらえばよい。
F境界値
自由度のF分布において上側の累積確率が5%となるF値なので、5.143...となる。こちらもExcelやpythonで計算してもらえれば。
この分散分析で最終的に得られるF値、p値によってグループ間の差が統計的に有意かを調べることが出来る。ちなみに帰無仮説は「交互作用がすべてゼロ()」である。今回のF=0.25ではp値は0.786なので、棄却域を0.05で取る場合帰無仮説は棄却され、「交互作用がすべてゼロ」ということになる。
それぞれの関係を下図に示した。
これで二元配置分散分析の完成である。
自分で手を動かすと、どういう差分に注目しているのかが頭に入ってくるので、お暇なときに参考にしてみてほしい。