統計検定準1級 25.因子分析・グラフィカルモデル

因子分析:複数変数の変動メカニズムを、少数の共通の要因によって集約する分析手法。例えば、複数問からなる数学の試験を、複数人の生徒が受験した場合を考える。各問の得点は独立に決定されるわけではなく数学が得意な人はどの問いも得点が高く、苦手な人は低い傾向にある。つまり、「数学の能力」のような直接は観測できない共通の要因が背後に存在し、その影響で各問の得点が決定されれていると考えられる。この共通の要因を共通因子と呼ぶ。
x_{ij}を生徒iの問jの得点とする。x_{ij}は問ごとに平均0、標準偏差に1に標準化されているとする。生徒iの共通因子の値をf_iと書き、生徒i因子スコアという。
x_{ij}=a_{j}f_{i}+d_{j}u_{ij}
V[x_{ij}]=a_j^2+d_j^2=1
のように定まることを想定したモデルを1因子モデルという。このとき、a_j因子負荷量u_ij独自性因子d_{j}独自係数
a_j,d_jは道パラメータであり、最尤推定法を用いて推定する。
K因子分析
x_{ij}=a_{j1} f_{i1}+\cdots a_{jK}f_{iK}+d_{j}u_{ij}
と表される。
X=(x_{ij})_{1\leq i \leq n, 1\leq i \leq p}, F=(f_{ij})_{1\leq i \leq n, 1\leq i \leq p}, A=(a_{ij})_{1\leq i \leq n, 1\leq i \leq p}
U=(u_{ij})_{1\leq i \leq n, 1\leq i \leq p}, D=diag(d_1,...,d_p)
とするとき
X=FA^\mathrm{T}+UD
ここで、TTT^\mathrm{T}の対角成分がすべて1であるようなK \times K正則行列とすると、X=FA^\mathrm{T}+UD=(FT)(T^{-1}A^\mathrm{T})+UD
が成立し、因子スコアと因子負荷行列の取り方は無数に存在することが分かる。
この因子の解釈を容易にするような座標軸を探索する手続きを回転と言い、Tを直交行列に限る場合の開店を直交回転という。また、因子負荷行列の各要素を2乗してできたp \times K行列の各列の分散を最大にするような直交行列をリマックス回転という。