第6講 各種データ解析法

判別分析

フィッシャー線形判別

2 つの母集団があり,あるサンプルがどちらの母集団に属するのかを線形判別により推測することを考える. 線形判別は,各群のデータが正規分布に従い,分散共分散行列が等しいことを仮定している.

観測値 x は,N(μ(1),Σ) または N(μ(2),Σ) に従っているとする.

x=(x1x2xp)  N(μ(k),Σ)    (k=1,2)
μ(k)=(μ1(k)μ2(k)μp(k))
Σ=(σ11σ12σ1pσ12σ22σ2pσ1pσ2pσpp)
マハラノビスの距離の 2 乗は,
(D(k))2=(xμ(k))Σ1(xμ(k))=i=1pj=1p(xiμi(k))(xjμj(k))σij
(D(2))2(D(1))2=(xμ(2))Σ1(xμ(2))(xμ(1))Σ1(xμ(1))=(xμ(2))(Σ1xΣ1μ(2))(xμ(1))(Σ1xΣ1μ(1))=(xΣ1xxΣ1μ(2)μ(2)Σ1x+μ(2)Σ1μ(2))(xΣ1xxΣ1μ(1)μ(1)Σ1x+μ(1)Σ1μ(1))=(xΣ1μ(2)μ(2)Σ1x+μ(2)Σ1μ(2))(xΣ1μ(1)μ(1)Σ1x+μ(1)Σ1μ(1))=xΣ1μ(2)μ(2)Σ1x+μ(2)Σ1μ(2)+xΣ1μ(1)+μ(1)Σ1xμ(1)Σ1μ(1)=xΣ1μ(1)xΣ1μ(2)+μ(1)Σ1xμ(2)Σ1xμ(1)Σ1μ(1)+μ(2)Σ1μ(2)=xΣ1(μ(1)μ(2))+(μ(1)μ(2))Σ1xμ(1)Σ1μ(1)+μ(2)Σ1μ(2)=((μ(1)μ(2))Σ1x)+(μ(1)μ(2))Σ1xμ(1)Σ1μ(1)+μ(2)Σ1μ(2)=2(μ(1)μ(2))Σ1xμ(1)Σ1μ(1)+μ(2)Σ1μ(2)=2(μ(1)μ(2))Σ1xμ(1)Σ1μ(1)+μ(2)Σ1μ(1)μ(2)Σ1μ(1)+μ(2)Σ1μ(2)=2(μ(1)μ(2))Σ1x(μ(1)Σ1μ(1)μ(2)Σ1μ(1))(μ(2)Σ1μ(1)μ(2)Σ1μ(2))=2(μ(1)μ(2))Σ1x(μ(1)μ(2))Σ1μ(1)μ(2)Σ1(μ(1)μ(2))=2(μ(1)μ(2))Σ1x(μ(1)μ(2))Σ1μ(1)((μ(1)μ(2))Σ1μ(2))=2(μ(1)μ(2))Σ1x(μ(1)μ(2))Σ1μ(1)(μ(1)μ(2))Σ1μ(2)=2(μ(1)μ(2))Σ1x(μ(1)μ(2))Σ1(μ(1)+μ(2))=(μ(1)μ(2))Σ1(2x(μ(1)+μ(2)))=(μ(1)μ(2))Σ1(2x2μ¯)=2(μ(1)μ(2))Σ1(xμ¯)
ただし,
μ¯=μ(1)+μ(2)2
ここで,線形判別関数 z
z=(μ(1)μ(2))Σ1(xμ¯)
と定義すると,次のように判別すればよい.

  1. z0  (D(2))2(D(1))2   母集団 [1] に属する

  2. z<0  (D(2))2<(D(1))2   母集団 [2] に属する

z の分布を考える.xN(μ(1),Σ) の下では,

E[z]=E[(μ(1)μ(2))Σ1(xμ¯)]=(μ(1)μ(2))Σ1E[(xμ¯)]=(μ(1)μ(2))Σ1(μ(1)μ¯)=12(μ(1)μ(2))Σ1(μ(1)μ(2))
V[z]=V[(μ(1)μ(2))Σ1(xμ¯)]=(μ(1)μ(2))Σ1V[(xμ¯)]((μ(1)μ(2))Σ1)=(μ(1)μ(2))Σ1V[(xμ¯)]Σ1(μ(1)μ(2))=(μ(1)μ(2))Σ1V[x]Σ1(μ(1)μ(2))=(μ(1)μ(2))Σ1ΣΣ1(μ(1)μ(2))=(μ(1)μ(2))Σ1(μ(1)μ(2))
よって,δ=μ(1)μ(2) とおいて,
zN(12δΣ1δ, δΣ1δ)
母集団 [1] に属するサンプルなのに,母集団 [2] に属すると誤判別される確率は,P(z<0) を計算すればよい. 逆に,母集団 [2] に属するサンプルなのに,母集団 [1] に属すると誤判別される確率は,
zN(12δΣ1δ, δΣ1δ)
であることを利用して,P(z0) を計算すればよい.