母集団と標本２ - 統計を学ぶ化学系技術者の記録

　母集団と標本では、似たようなパラメーターを扱っているはずなのに、それを表す単語や記号が違う。この違いが腑に落ちてからその後の数式の理解が深まったので、ここにまとめておきたい。

　教科書によっても表記が違うので、これが標準と言えないのだけれど、このブログでは今回の記事の表記を使っていこうと思う。

母数と標本数

母集団	標本
母数　 $N$	標本数　 $n$

母集団

標本

母数　 $N$

f:id:Chemstat:20200722062516j:plain

標本数　 $n$

f:id:Chemstat:20200722062513j:plain

　母数 $N$ は分析したい母集団に含まれるサンプルすべての数を表す。それに対して標本数 $n$ はその中から取り出し実際に評価をしたサンプルの数になる。

　ある膜の強度測定を複数点で行ったら、測定点数が標本数 $n$ になり、母数 $N$ はあらゆる場所での強度測定結果なので∞個になってしまう。

　母集団を全数検査するなら母数 $N$ と標本数 $n$ は等しくなる。

　母数 $N$ は分からない場合も多い、というかほとんど分からないので、標本数 $n$ が母集団から一部を取り出したものという事だけ意識していればいいと思います。

母平均と標本平均

母集団	標本
母平均　 $\mu$	標本平均　 $\bar{x}$

母集団

標本

母平均　 $\mu$

f:id:Chemstat:20200722193216j:plain

標本平均　 $\bar{x}$

f:id:Chemstat:20200722193207j:plain

　母集団の要素を $X_i$ 、標本を要素を $x_i$ とするとそれぞれの平均は下記式であらわされる。

母平均　 $\begin{eqnarray*}\mu=\frac{1}{N}\sum_{i=1}^{N}X_i\end{eqnarray*}$

標本平均　 $\begin{eqnarray*}\bar{x}=\frac{1}{n}\sum_{i=1}^{n}x_i\end{eqnarray*}$

　計算方法はみんな知っているのでいいと思う。大事なことは、母平均 $\mu$ と標本平均 $\bar{x}$ （正確にはその期待値）は等しくなる、ということだ。適当に数個データを取って平均をとれば、母集団の平均も予想できる。当たり前に感じるかもしれないが、重要だ。なぜなら分散の場合話が違ってくるからだ。

母分散と標本分散

母集団	標本
母分散　 $\sigma^2$ 母標準偏差　 $\sigma$	標本分散　 $s^2$ 標本標準偏差　 $s$

母集団

標本

母分散　 $\sigma^2$

母標準偏差　 $\sigma$

f:id:Chemstat:20200722193211j:plain

標本分散　 $s^2$

標本標準偏差　 $s$

f:id:Chemstat:20200722193203j:plain

　集団のばらつきをあらわすのは分散か標準偏差が一般的だ。エクセルを使ってとりあえず標準偏差を出している人も多いだろう。この辺から話がややこしくなってくる。それぞれの分散は以下の式で示される。
母分散　 $\begin{eqnarray*} \sigma^2=\frac{1}{N}\sum_{i=1}^N\left(X_i-\mu\right)^2 \end{eqnarray*}$ 　

標本分散　 $\begin{eqnarray*} s^2=\frac{1}{n}\sum_{i=1}^n\left(x_i-\bar{x}\right)^2 \end{eqnarray*}$

　計算方法自体は中学生でも計算できるので別にいい。ただし、この標本分散 $s^2$ は注意が必要だ。これはあくまで「取得したデータがどれだけばらついているか」が分かるのであって、「推定される母集団のばらつき」の議論には使えない。

不偏分散と不偏標準偏差

標本から推定される母集団
不偏分散　 $u^2$ 不偏標準偏差　 $u_s$

標本から推定される母集団

不偏分散　 $u^2$

不偏標準偏差　 $u_s$

f:id:Chemstat:20200726063446j:plain

　統計的解析を行うのは、サンプルそのものに関心があるのではなく、そこから推定される母集団がどういう特性を持っているかを知りたい場合がほとんどだろう。製品のロット抜き取り検査をして平均や誤差、ばらつきを調べているのは「過去、未来に生産する製品すべて」がどういう分布を持っているかを知り、対策したいからだ。

　そんなときに標本分散 $s^2$ をそのまま使う事は統計的に正しくない。数学的説明は割愛するが、標本分散 $s^2$ は母分散 $\sigma^2$ より小さくなる傾向があるため、正しくは下記の定義であらわされる不偏分散 $u^2$ を使う必要がある。

不偏分散　 $\begin{eqnarray*} u^2=\frac{1}{n-1}\sum_{i=1}^n\left(x_i-\bar{x}\right)^2 \end{eqnarray*}$ 　

　見ての通り $n-1$ で割られていて、標本分散 $s^2$ より少し大きくなる。そして $n$ が大きくなるほどその影響は小さくなる。「分散を求める」と表現されていても、ソフトや関数によって $n$ で割ったり $n-1$ で割ったりがまちまちなので注意が必要だ。「標本そのもののばらつき」「母集団のばらつき」のどちらを知りたいかで使い分ける必要がある。

　「不偏」という言葉の意味は、サンプリングを繰り返してその平均値をとると、母集団の「真の値」と一致する、という意味だ。言い換えれば不偏分散 $u^2$ の期待値は母分散 $\sigma^2$ に一致する。

　じゃあ母集団の標準偏差を予想したければ不偏分散 $u^2$ の平方根を取ればいいのか、と思うがそうではない。

　母集団の標準偏差を推定する不偏標準偏差 $u_s$ は次の方法で計算される。見慣れないガンマ関数が出てくるがこれは $n$ を与えれば計算可能な値だ。

不偏標準偏差　 $\begin{align*}u_s=\frac{\sqrt{n-1}}{\sqrt{2}} \cdot \frac{\Gamma\left(\frac{n-1}{2}\right)}{\Gamma\left(\frac{n}{2}\right)} \cdot u\end{align*}$

　そして迷惑なことに、エクセルのSTDEVは標本の標準偏差 $s$ を、STDEVPは不偏分散の平方根 $u$ を出すのだが、不偏標準偏差 $u_s$ を計算するものは存在しない。

　じゃあ今までSTDEVでとりあえず算出していた「標準偏差」は何だったのか、となるのだが、その答えは「母集団の標準偏差の不偏推定値より少し小さい値」になる。ガンマ関数は標本数 $n$ に依存するので、標本数が同じデータを比べるならSTEDEVを使ったところでそれほど問題にはならない。 $n$ が異なるデータを比べたいときは、ちゃんとに不偏標準偏差 $u_s$ を計算するほうがよい。