統計学における自由度

この記事は 明日話したくなる数学豆知識アドベントカレンダー の 2日目の記事です。(1日目:グロタンディーク素数 )

 

と言う訳でわざわざこの企画に参加するためyahooのメールアドレスをもう一つ取得し,そのアドレスでfacebookのアカウントを作成しはてなに登録した.はてなに登録したのは初めてであるがfacebookで作ったアカウントはこれでたしか13個目であり,その殆どは垢BANを食らっている.facebookから垢BANを食らうのは割りと簡単で,適当なアカウントに対して「友達申請→友達申請キャンセル」を繰り返せばよい.そのうち画面が突然変わり,アカウントを人質に携帯電話番号を要求するフォームが出現する.なお,このプロセスで友達申請連打を食らった人が愚かにもスマホfacebookアプリをインストールしていて通知をオンにしていたりするとなかなか手間をかけさせることができる.しかしこのスパム判定はなぜか友達がいない状態の方が再現性が高く,ある程度友達がいるとなかなかスパム認定されない.

 

とまあそんな明日話したくなるfacebook垢BAN豆知識は置いといて明日話したくなるかどうかは保証しないが数学豆知識的な話を書いておこう.ここで書く話はどこかですでに書いた話なのでネットの海のどこかに私が書いた元ネタがある.今年はコピペが云々で一部の界隈が大変だったようだが,自分で書いたものを自分のブログにコピペするくらいいいだろう.

 

統計学を学ぶ際に必ず出くわす概念が自由度というやつである.特に推定および検定では「これこれは自由度何々の云々分布に従うから・・・」という論法が繰り広げられる.この自由度と言うのがなかなかとっつきにくいもので,基本的には標本数から幾らか自然数を引いた値になる.特に不偏分散を求める場合が有名で,「最後のデータは平均値と他のデータから求められるから自由度が一つ減る」という説明を見た人は数多くいるだろう.大方の人はこの説明で納得がいくようでネット上の自由度の解説でもこのくだりがいくつもヒットする.しかし私は最初にこの説明を見たときからずっと意味がわからないなと感じていた.「平均値はもともとデータから決められていたわけでN個のデータ自体は全て自由に動けるとしないとおかしいのではないか?」

 

そもそも典型的な統計学の教科書のほとんどが数学的につっこんだ証明を書いていない.一方,数理統計学と題された教科書を見てみると,まさに統計における数学が記されており,自由度が減る理由も数学的にわかるようになる. 少し問題設定を捉えなおすと,データが X_1, X_2, ..., X_nであるとして,不偏分散を計算するというのは,平均値 \bar{X}で引いた X_1-\bar{X}, X_2-\bar{X}, ..., X_n-\bar{X}の二乗和を計算するということである.これは確率変数 Y_1, Y_2, ..., Y_n

 \begin{equation} Y_1 + Y_2 + \cdots + Y_n = 0 \end{equation}

という拘束条件が付いている状況で二乗和を計算するということになる.実は,この拘束条件の数こそが自由度を減らす数なのである.

 

二乗和 \Theta

 \begin{equation} \Theta = \begin{pmatrix} X_1   X_2   \cdots   X_n \end{pmatrix} \begin{pmatrix} X_1 \\ X_2 \\ \vdots \\ X_n \end{pmatrix} = \mathbf{X}^T \mathbf{X} \end{equation}

 と書こう.そしてこの確率変数  X_1, X_2, ..., X_nに対して

 \begin{equation} C \mathbf{X} = 0 \end{equation}

と表現される \mathrm{rank \ }C=k< n個の拘束条件があるとする.すると,実際に考えなくてはならない空間は \mathrm{Ker \ }Cである. \mathrm{Ker \ }Cの基底を \mathbf{a}_1, ..., \mathbf{a}_{n-k}として,
 \begin{equation} \mathbf{X} = ( \mathbf{a}_1, ..., \mathbf{a}_{n-k} ) \begin{pmatrix} Y_1 \\ \vdots \\ Y_{n-k} \end{pmatrix} = A \mathbf{Y} \end{equation}
とすると, \Theta
 \begin{equation} \Theta = \mathbf{Y}^T A^T A \mathbf{Y} = \mathbf{Y}^T B \mathbf{Y} \end{equation}
と書ける. Bは実対称行列なので,正規直交行列 Uによる対角化ができて
[tex: \begin{eqnarray}
\Theta &=& \mathbf{Y}^T U \Lambda U^T \mathbf{Y} = \left( U^T \mathbf{Y} \right)^T \Lambda \left( U^T \mathbf{Y} \right)^T \notag \\
&=& \left( \mathbf{u}_1 \cdot \mathbf{Y}, ..., \mathbf{u}_{n-k} \cdot \mathbf{Y} \right)^T \Lambda \left( \mathbf{u}_1 \cdot \mathbf{Y}, ..., \mathbf{u}_{n-k} \cdot \mathbf{Y} \right) \notag \\
&=& \left( \sqrt{\lambda_1} \mathbf{u}_1 \cdot \mathbf{Y} \right)^2 + \cdots + \left( \sqrt{\lambda_{n-k}} \mathbf{u}_{n-k} \cdot \mathbf{Y} \right)^2 \notag \\
&=& \mathbf{W}_1^2 + \cdots + \mathbf{W}_{n-k}^2
\end{eqnarray} ]
となる.ここで, \mathbf{u}_1, ..., \mathbf{u}_{n-k} Uをつくる B固有ベクトルであり,各固有値 \lambda_1, ..., \lambda_{n-k}としている.こうして新しくできた確率変数 \mathbf{W}_1, ..., \mathbf{W}_{n-k}は, i \neq jについて
 \begin{equation} \mathrm{Cov}(\mathbf{W}_i, \mathbf{W}_j) = \sqrt{\lambda_i \lambda_j} \mathrm{Cov}( \mathbf{u}_i \cdot \mathbf{Y}, \mathbf{u}_j \cdot \mathbf{Y}) = \sqrt{\lambda_i \lambda_j} V(\mathbf{Y}) \mathbf{u}_i \cdot \mathbf{u}_j = 0 \end{equation}
となるので,各々独立である.つまり, \Thetaを構成している独立な確率変数は結局のところ n-k個しかなく,これがいわゆる「自由度が減った」というやつなのである.

 

明日話したくなる数学豆知識は明日も続く.