統計を学ぶ化学系技術者の記録

データ数とばらつきの関係を直感的に理解したい

統計

実験データは必ずばらつきを含む。ばらつきに対してサンプル間の差が十分ないと有意差かどうかを判定することが出来ない。じゃあばらつきとサンプル間の差はどの程度必要なのかを簡単にシミュレーションしてみた。

まずサンプル間差（difference）と標準偏差（sigma）を定義して、以下の条件で正規分になるデータを生成した。

data1：

平均値=1

標準偏差=sigma

data2：

平均値=1+difference

標準偏差=sigma

それぞれから一つずつデータを取り出してdata1<data2となっている確率を計算してみた。以下のグラフはdifference=0.1、sigma=0.1とすると76%でdata1<data2となる。

差が0であれば50%なわけだからそれよりはまし、ということになる。

じゃあdifferenceとsigmaを色々変えるとどうなるの？というのがこちら。

90%以上の確率で判定したい、と思うと標準偏差がデータの対して半分以下くらいないといけないということが分かる。

このsigma/differenceの比率と関係をシミュレーションしてみるとこうなる。sigma/differenceが大きくなるほど完全なランダムである50%に近づいていく。たとえ研究開発用途であっても90%くらいは正しく判定したい、と思うと標準偏差はデータ差に対して半分くらいにはしておきたいという気持ちになる。

最後にn増し実験の効果もシミュレーションしてみる。

繰り返し測定をして平均値をとった際の標準誤差は

$SE=\frac{\sigma}{\sqrt{n}}$

で表される。例えばsigma/differenceが1だったとしたら、n=1では75%、n=2では85%、n=3では90%程度に判定できる。

実験誤差があるなと思っても、実際どの程度小さくしないといけないのかは手間の問題もあって意外と難しい。量産フェーズだと工程能力指数を出すというセオリーがあるが、研究フェーズだと毎回そんなことをする手間は当然なく適当にn2くらいでお茶を濁す事が多い。

今後は今回の計算を頭に入れてどの程度増やす必要があるかを考えたい。困ったらn増しに尽きる。

世の中にはサンプルサイズ設計というものがあって、検知したいサンプル間差と精度を入れると必要な実験数を提示してくれる。この辺はまたおいおいちゃんと勉強したい。

ランキング参加中