通常私たちが行う回帰分析は説明変数xと目的変数yの間に線形の変化があることが前提とされていることが多い。
実際にはそんな単純なデータは少ないので、目的変数yを色々と変形して線形になるように試行錯誤する羽目になる。
そんな変換の一つとしてロジット変換がある。
品質工学の分野では対数を10としたオメガ変換が使われることが多い。
このロジット変換の使い道を調べると「不良率のように0~100%の間しかとらない出力yの場合に使うとよい」「S字型のグラフの変換に使える」というような回答が出てくるのだが、実際の数学的背景を知らないと適用可能な場面を間違えそうなので調べてみることにした。
ロジット変換が厳密に適用できるのは、「目的変数yが0,1のような二群で表され、それぞれの群の説明変数xが正規分布になる場合、説明変数xのサンプルがどちらかの群に属する確率」らしい。
よくわからないと思うので図にするとこうなる。
計算自体は簡単なのだが化学材料の開発だと厳密に適用できるデータはあまりない。
現実的には第二の用途のほうが頻度は高く、それは「正規分布の累積確率をプロビット変換する際の近似」である。
プロビット変換は正規分布の逆関数で表されるが計算が難しいので、ロジット変換で近しい直線を得ることが出来る。ちなみにこのグラフはpython頼みである。
ロジット変換はあくまでもプロビット変換の近似なので、特にデータの端で直線性が落ちる。
本来であれば正規分布の累積確率は下記のプロビット変換によって線形変換できるのだが計算の便利さから、ロジット変換やオメガ変換を用いることが多い。
オメガ変換は対数の底が10になるだけでほぼロジット変換と同じなので、文化に応じて使い分ければよいと思う。
大事なのはパーセントデータだから無条件でロジット変換というわけではなく、場合によっては対数近似とかのほうが好ましい場合もある。
参考