統計分析で大事な要素として「フィッシャーの3原則」がある。
「反復・無作為・局所管理」と表現されるが、要するに「繰り返しやる・ランダムにやる・まとめてやる」ということになる。
今回取り上げたいのはその中のランダム化である。
実験するほど装置の調子が変わって数値が大きくなる、といった系統誤差が存在する場合、ランダム化することでその影響をある程度キャンセルできる、ということになっている。
上図のようにそのまま実施すると系統誤差の影響で樹脂Cの数字が大きくなっているように見えるが、ランダム化すると樹脂間の差がなくなっている。
このランダム化、私が仕事で実験をする場合はほとんどやらない。
その理由はただただ単純に「面倒くさい」の一言に尽きる。
完全に自動化されている実験であればいいが、化学系であればまだまだ手作業が多いはずだ。これをランダム化すると実験ミスの可能性が大幅に上がる。
結果が出たあとに外れ値があったりすると、実験ミスのせいではと疑念が拭えず結局やり直しになったりする。
さらに言うと系統誤差があると、たとえランダム化したとしても効果を十分切り分けきれないことも多い。
だったらたまにしか起こらない系統誤差を気にして手間を増やすより、開き直って順番通り実施して効率化したほうがいいケースも多い。私の実験では大体これで何とかなる。
個人的におすすめなのはリファレンスを最初と最後に評価することだ。
リファレンスがどれだけ変動するかである程度は系統誤差の存在を推定できる。
とはいえ一律にランダム化しなければいいというわけでもなく、品質管理で微妙な差をちゃんと統計分析で確かめたいときはランダム化する事をお勧めする。