【実験計画Tips】t検定使えない問題

統計を勉強し始めて検定の項目になると、最初は大体t検定から入るのではないかと思う。初めてt検定を勉強した時は改良しているかどうかを定量的に扱うことが出来て理想的な手法に思える。しかしいざ実際の仕事で使ってみるとあんまり役に立たないことが多い。

 

有意と判定されるものは人の目で見ても明らかなものばかりなのに、有意差がありそうと思ったものが検定ではでも有意と判定されなかったりする。

 

例えば2種類のサンプルをそれぞれ2回評価したとする。

このデータの分散1で、有意水準5%とすると、サンプル間の差は5近くならないとp値は0.05以下にならず有意と判定されない。下図を見て人が判断するなら差が3~4あたりになると怪しいなと思いそうだろう。

これは評価の繰り返し数の影響が大きく、n数が増えるほど判定できる有意差は小さくなっていく。

もし平均値の差が2、分散が1ならば、データ数をそれぞれ4点まで増やすとp値が0.05以下となり有意と判定される。

 

そんなわけでこのような統計検定が真に効果を発揮するのは大量のデータから微妙な差を判定する時であって開発段階のn数が少ないデータの分析ではない。スクリーニング段階なら各サンプル1回ずつしか評価しないなんてこともよくあるので、そもそも平均値も分散も出せませんってことだって多々あるだろう

 

これは大体の検定手法に言えることで共分散分析なんかはもっと顕著だ。せいぜい3~4点しかないデータを分析しても大体有意差なし、という結論になるし信頼区間も広すぎて何もわからないに等しい。

 

スクリーニングをしたのち有望なサンプルかどうかをちゃんと判定したいときに、たくさんデータをとって検定する、というほうが現実的な使い方かと思う。

 

ちなみに本来は実験誤差と性能差をあらかじめ想定して、検定で検出できるだけの実験数を準備しておくのが正当な使い方かと思うので、絶対に外せない時はサンプルサイズ設計から始める事をお勧めする。