コーシー分布の話
コーシー分布の確率密度関数について。
コーシー分布の確率密度関数
コーシー分布を定義する方法の1つは、確率密度関数が
\[ f(x) = \frac{1}{\pi} \frac{1}{1+x^2} \qquad (-\infty < x < \infty)\]
であると定義する方法である。今回は考えないが、
\[ f(x) = \frac{a}{\pi} \frac{1}{1+(ax+b)^2} \qquad (-\infty < x < \infty)\]
のようなバリエーションもコーシー分布というかもしれない。
確率密度関数であるためには、
\[ \int_{-\infty}^{\infty} f(x) \, dx = 1 \]
を満たす必要があり、今回でいうと、
\[ \int_{-\infty}^{\infty} \frac{1}{1+x^2} \, dx = \pi \]
になる。これは、積分と $ \tan^{-1} $ の性質
\[ \int_{0}^{x} \frac{1}{1+t^2} \, dt = \tan^{-1} x, \qquad \lim_{x \to \infty}\tan^{-1} x = \frac{\pi}{2} \qquad \lim_{x \to -\infty}\tan^{-1} x = - \frac{\pi}{2} \]
を用いれば分かる。高校数学ではこの積分の公式を教えることはなく、頑なに $ t = \tan x $ などと置換させて解かせるが、教えたほうがはやいと思われる。
コーシー分布と正規分布の関係
$ X $, $ Y $ が標準正規分布にしたがう(独立な)確率変数であるとき、商で定義される確率変数 $ Z = Y/X $ のしたがう分布がコーシー分布であるという定義もできる。この定義にしたがって $ Z $ の確率密度関数を計算し、上で定義したものと一致することを確認しよう。
商の分布の計算の話をするのは面倒だが手短に行う。結論を言えば、$ Z = Y/X $ の密度関数は, $ X $の密度関数 $ f $ と $ Y $ の密度関数 $ g $ を用いて,
\[ h(z) = \int^{\infty}_{-\infty} f(x) g(zx) | x | \, dx \]
となる。これは, $(x, y) \mapsto (z, x)$ の変換を行い, $ (z,x) $の同時密度関数を得たあとに $ x $ について積分しているのであり、$ | x | $ は$(x, y) \mapsto (y/x, x)$のヤコビアンの絶対値の逆数である(わざわざ逆数を取らなくても、$(z,x) \mapsto (x,y)$のヤコビアンでよかった)。和の分布であれば、
\[ h(z) = \int^{\infty}_{-\infty} f(x) g(z-x) \, dx \]
のように、ヤコビアン(の絶対値)が1になるので意識しなくて済むが、商やもっと複雑な変換をする場合は、この理屈が分かっていないと計算ができないので注意。
今の場合は、
\[ f(x) = g(x) = \frac{1}{\sqrt{2\pi}} e^{-\frac{x^2}{2}} \]
であるから、これを当てはめて、
\begin{align}
h(z)
&=\frac{1}{2\pi} \int^{\infty}_{-\infty} e^{-\frac{(1+z^2)x^2}{2}} | x | \, dx
= \frac{1}{\pi} \int^{\infty}_{0} e^{-\frac{(1+z^2)x^2}{2}} x \, dx\\\
&= \bigg[ -\frac{1}{\pi (1+z^2)} e^{-\frac{(1+z^2)x^2}{2}} \bigg]^{\infty}_{0}
= \frac{1}{\pi (1+z^2)}
\end{align}
となって、上の確率密度関数と一致する。
図形的な意味を使った導出
このような積分を使った計算を使わなくても、図形的に確率密度関数を導出することも可能である。
$ Z = Y/X $ の分布を考えているわけだが、これは $ (X,Y) $と原点を通る直線の傾きを表す。ここで、$ (X,Y) $は原点を中心にした回転で不変な分布であるから、$ (X,Y) $と原点を通る直線の偏角は$-\frac{\pi}{2}$から$\frac{\pi}{2}$で一様に分布する。このことから$Z$の累積分布関数に$\frac{1}{\pi} (\tan^{-1}z + \frac{\pi}{2} )$であることが分かり、これを微分して密度関数が得られる。
コーシー分布には期待値が定義できない
コーシー分布は0を中心とした山の形をしているという点では、標準正規分布と同じである。しかし、期待値は$0$でなく、そもそも期待値が定義できない。(分散も定義できない。)定義できるためには、$| x | $を密度関数と掛けたものの積分が有限でないといけないが、コーシー分布の場合は$\infty$である。したがって、コーシー分布にしたがって $n$ 個の値をとって平均をとったときに$n$を大きくしても$0$には近づくとはいえない。
コーシー分布も正規分布も $ \lim_{x \to \pm\infty} f(x) = 0 $ ではあるが、収束の速さには差があり、コーシー分布は正規分布に比べて遅く、コーシー分布は裾の広い分布といえる。別の観点では、$f(x) / f(x+1)$はコーシー分布では1に収束し、正規分布では$0$に収束するという違いがある。2019年11月の統計検定1級の統計数理の試験に、それに由来する現象を題材とする問題があるので、それについても書きたかったが、今回はここまで。