コーシー分布の話

 コーシー分布の確率密度関数について。

コーシー分布の確率密度関数

コーシー分布を定義する方法の1つは、確率密度関数

\[ f(x) = \frac{1}{\pi} \frac{1}{1+x^2} \qquad (-\infty < x < \infty)\]

であると定義する方法である。今回は考えないが、

\[ f(x) = \frac{a}{\pi} \frac{1}{1+(ax+b)^2} \qquad (-\infty < x < \infty)\]

のようなバリエーションもコーシー分布というかもしれない。

 確率密度関数であるためには、

\[ \int_{-\infty}^{\infty} f(x) \, dx = 1 \]

を満たす必要があり、今回でいうと、

\[  \int_{-\infty}^{\infty} \frac{1}{1+x^2} \, dx = \pi \]

になる。これは、積分と $ \tan^{-1} $ の性質

\[  \int_{0}^{x} \frac{1}{1+t^2} \, dt = \tan^{-1} x, \qquad \lim_{x \to \infty}\tan^{-1} x = \frac{\pi}{2} \qquad \lim_{x \to -\infty}\tan^{-1} x = - \frac{\pi}{2} \]

を用いれば分かる。高校数学ではこの積分の公式を教えることはなく、頑なに $ t = \tan x $ などと置換させて解かせるが、教えたほうがはやいと思われる。

コーシー分布と正規分布の関係

$ X $, $ Y $ が標準正規分布にしたがう(独立な)確率変数であるとき、商で定義される確率変数 $ Z = Y/X $ のしたがう分布がコーシー分布であるという定義もできる。この定義にしたがって $ Z $ の確率密度関数を計算し、上で定義したものと一致することを確認しよう。

 

商の分布の計算の話をするのは面倒だが手短に行う。結論を言えば、$ Z = Y/X $ の密度関数は, $ X $の密度関数 $ f $ と $ Y $ の密度関数 $ g $ を用いて, 

\[ h(z) = \int^{\infty}_{-\infty} f(x) g(zx) | x | \, dx \]

 となる。これは, $(x, y) \mapsto (z, x)$ の変換を行い, $ (z,x) $の同時密度関数を得たあとに $ x $ について積分しているのであり、$ | x | $ は$(x, y) \mapsto (y/x, x)$のヤコビアンの絶対値の逆数である(わざわざ逆数を取らなくても、$(z,x) \mapsto (x,y)$のヤコビアンでよかった)。和の分布であれば、

\[ h(z) = \int^{\infty}_{-\infty} f(x) g(z-x)  \, dx \]

のように、ヤコビアン(の絶対値)が1になるので意識しなくて済むが、商やもっと複雑な変換をする場合は、この理屈が分かっていないと計算ができないので注意。

 

今の場合は、

\[ f(x) = g(x) = \frac{1}{\sqrt{2\pi}} e^{-\frac{x^2}{2}} \]

であるから、これを当てはめて、

\begin{align}
h(z)
&=\frac{1}{2\pi} \int^{\infty}_{-\infty} e^{-\frac{(1+z^2)x^2}{2}} | x |  \, dx
= \frac{1}{\pi} \int^{\infty}_{0} e^{-\frac{(1+z^2)x^2}{2}} x  \, dx\\\
&= \bigg[ -\frac{1}{\pi (1+z^2)} e^{-\frac{(1+z^2)x^2}{2}} \bigg]^{\infty}_{0}
= \frac{1}{\pi (1+z^2)}
\end{align}

となって、上の確率密度関数と一致する。

図形的な意味を使った導出

このような積分を使った計算を使わなくても、図形的に確率密度関数を導出することも可能である。

$ Z = Y/X $ の分布を考えているわけだが、これは $ (X,Y) $と原点を通る直線の傾きを表す。ここで、$ (X,Y) $は原点を中心にした回転で不変な分布であるから、$ (X,Y) $と原点を通る直線の偏角は$-\frac{\pi}{2}$から$\frac{\pi}{2}$で一様に分布する。このことから$Z$の累積分布関数に$\frac{1}{\pi} (\tan^{-1}z + \frac{\pi}{2} )$であることが分かり、これを微分して密度関数が得られる。 

コーシー分布には期待値が定義できない

コーシー分布は0を中心とした山の形をしているという点では、標準正規分布と同じである。しかし、期待値は$0$でなく、そもそも期待値が定義できない。(分散も定義できない。)定義できるためには、$| x | $を密度関数と掛けたものの積分が有限でないといけないが、コーシー分布の場合は$\infty$である。したがって、コーシー分布にしたがって $n$ 個の値をとって平均をとったときに$n$を大きくしても$0$には近づくとはいえない。

コーシー分布も正規分布も $ \lim_{x \to \pm\infty} f(x) = 0 $ ではあるが、収束の速さには差があり、コーシー分布は正規分布に比べて遅く、コーシー分布は裾の広い分布といえる。別の観点では、$f(x) / f(x+1)$はコーシー分布では1に収束し、正規分布では$0$に収束するという違いがある。2019年11月の統計検定1級の統計数理の試験に、それに由来する現象を題材とする問題があるので、それについても書きたかったが、今回はここまで。