化学材料の評価だと、「ばらつき」が性能の一部になることがある。塗布膜の均一性であったり、ロット差の安定性なんかも重要だ。そこで分散や標準偏差を出すのだが、この分散や標準偏差にも当然の測定ばらつきがある。
じゃあどうやって「ばらつきのばらつき」を表せばいいのかを調べてみた。まず正規分布に従ってばらつくデータを考える。母平均、母分散の母集団があるとする。
で、ここからランダムに何点か取り出したものを標本とする。ここでは標本数、を例にする。標本を取り出す操作を何回も繰り返して、不偏分散がどのくらいばらつくかを考える。
実際の実験をイメージするなら、2点測定した場合と100点測定した場合で、そこから計算された平均や分散の結果がどれくらいばらつくかということになる。
まず平均値の分布を見てみる。
これはどちらもきれいな正規分布で、標本数を増やすほうが分布が狭くなる。この時の分散がいわゆる評価誤差の二乗に相当し、下記式で表される。
この辺は実際にデータを取り扱っている感覚と合う。どこかで記事にしたいが、一旦置いておく。とにかく平均値の場合はによって正規分布の幅が変わるということだ。
では分散の分布を見てみる。
こちらはによって大きく違う形になる。は0の時に頻度が最大で減衰していく分布になる。一方では正規分布っぽく見える。
この分散の平均をとると、どちらも4になる。の分布で平均が4なのは違和感はあるが、実際計算するとそうなる。
では分散の分散を計算するとだと32、だと約0.32になる。これはどう導かれるのだろう。
母分散の正規分布の母集団から個のデータを取り出し、不偏分散を求めた時、が自由度のカイ二乗分布に従うことが知られている。上のグラフもそれぞれ自由度1、自由度99のカイ二乗分布から導かれる。
の分散 は以下の式で与えられることが分かっている。
とは定数で得られる値なので、式を展開していくと
となる。実際に、の場合を計算してみると、
となり無事先ほど計算した値と一致した。は分からないことのほうが多いので、不偏分散や分散の平均で代替する。あくまで母集団が正規分布の時しか成立しないので注意してほしい。
ということでやっと分散の分散を計算することが出来たが、が小さいときはその分散を出したところで、そのばらつきが大きすぎて何の参考にもならない事がよくわかる。
参考:カイ二乗分布の分散 https://yu-otake.net/wp-content/uploads/2018/12/29e0cf2a40f71e168b7d789390197bc6.pdf