Module 1-2 - Section 2: 確率と確率分布¶
セクション情報¶
| 項目 | 内容 |
|---|---|
| モジュール | Module 1-2: 統計学・データ分析基礎 |
| 前提セクション | Section 1 |
| 想定学習時間 | 3時間 |
導入¶
前セクション(→ Module 1-2, Section 1「記述統計」参照)では、手元にあるデータの特徴を数値的に要約する方法を学んだ。平均値や標準偏差といった記述統計量は「観測されたデータそのもの」を記述する道具であり、データの外にある母集団について語ることはできない。
本セクションでは、記述統計の枠組みを確率論へと拡張する。確率論は不確実性を数学的に扱う体系であり、サンプルデータから母集団の性質を推定する推測統計(→ Module 1-2, Section 3「推測統計」参照)の理論的基盤となる。確率の基礎概念から出発し、条件付き確率とベイズの定理、確率変数と確率分布、主要な離散分布・連続分布を経て、最終的に中心極限定理に到達する。中心極限定理は、サンプルサイズが十分に大きければ標本平均の分布が正規分布に近づくことを保証するものであり、推測統計のあらゆる手法の根幹をなす定理である。
確率の基礎概念¶
標本空間と事象¶
Key Concept: 標本空間(Sample Space) ある試行(experiment)において起こり得るすべての結果の集合。記号 $\Omega$(オメガ)で表す。
Key Concept: 事象(Event) 標本空間の部分集合。ある条件を満たす結果の集まりであり、記号 $A, B, C, \ldots$ で表す。
サイコロを1回振る試行の標本空間は $\Omega = {1, 2, 3, 4, 5, 6}$ であり、「偶数の目が出る」という事象は $A = {2, 4, 6}$ である。経営の文脈では、たとえば新製品の市場投入における標本空間を「成功」「部分的成功」「失敗」と設定し、各結果の確率を評価することが意思決定の出発点となる。
事象の基本的な演算として以下がある。
- 和事象(union): $A \cup B$ — 事象Aまたは事象Bの少なくとも一方が起こる
- 積事象(intersection): $A \cap B$ — 事象Aと事象Bが同時に起こる
- 余事象(complement): $A^c$ — 事象Aが起こらない
- 排反事象(mutually exclusive): $A \cap B = \emptyset$ — 事象Aと事象Bが同時に起こり得ない
確率の公理¶
Key Concept: 確率(Probability) 事象に対して割り当てられる 0 から 1 の実数値であり、その事象の起こりやすさを定量化する。Andrey Kolmogorov(1933)が確立した公理的体系により、確率は測度論に基づく厳密な数学的対象として定義される。
コルモゴロフの確率の公理は以下の3つである。
- 非負性: 任意の事象Aに対して $P(A) \geq 0$
- 正規性: $P(\Omega) = 1$(全事象の確率は1)
- 加法性: 互いに排反な事象 $A_1, A_2, \ldots$ に対して $P(A_1 \cup A_2 \cup \cdots) = P(A_1) + P(A_2) + \cdots$
これらの公理から、以下の基本的性質が導かれる。
- $P(A^c) = 1 - P(A)$
- $P(\emptyset) = 0$
- $P(A \cup B) = P(A) + P(B) - P(A \cap B)$(加法定理 / 包除原理)
確率の解釈には大きく3つの立場がある。古典的確率(同様に確からしい結果の比率)、頻度論的確率(無限回の試行における相対頻度の極限)、主観的確率(個人の信念の度合い)である。ベイズ統計学は主観的確率の立場に立ち、データに基づいて確率(信念)を更新するアプローチをとる。
条件付き確率と独立性¶
条件付き確率¶
Key Concept: 条件付き確率(Conditional Probability) 事象Bが起こったという条件の下で事象Aが起こる確率。$P(A|B) = \frac{P(A \cap B)}{P(B)}$(ただし $P(B) > 0$)で定義される。
条件付き確率は「新しい情報が与えられたときに確率がどう変わるか」を記述する概念であり、ビジネス上の意思決定において極めて重要である。
例: ある企業の従業員のうち、MBA保有者が20%($P(M) = 0.20$)、管理職が10%($P(K) = 0.10$)、MBA保有かつ管理職が6%($P(M \cap K) = 0.06$)であるとする。管理職であるという条件の下でMBA保有者である確率は、
$$P(M|K) = \frac{P(M \cap K)}{P(K)} = \frac{0.06}{0.10} = 0.60$$
すなわち、管理職の60%がMBA保有者である。全従業員中のMBA保有率(20%)と比較すると、管理職ではMBA保有率が顕著に高いことがわかる。
乗法定理¶
条件付き確率の定義を変形すると、乗法定理(multiplication rule)が得られる。
$$P(A \cap B) = P(A|B) \cdot P(B) = P(B|A) \cdot P(A)$$
これは2つの事象が同時に起こる確率を計算するための基本公式である。
独立事象¶
Key Concept: 独立(Independence) 事象Aの発生確率が事象Bの発生の有無に影響されないとき、AとBは独立であるという。数学的には $P(A \cap B) = P(A) \cdot P(B)$ が成り立つことと同値である。
独立であれば $P(A|B) = P(A)$ が成り立ち、Bの情報はAの確率を更新しない。コイン投げの各試行は独立の典型例である。一方、経営環境においては変数間の独立性が成立しないことが多く、条件付き確率やベイズの定理による分析が必要になる。
ベイズの定理¶
Key Concept: ベイズの定理(Bayes' Theorem) 事前確率を新たなデータ(証拠)に基づいて更新し、事後確率を得るための公式。 $$P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)}$$ ここで $P(A)$ は事前確率、$P(B|A)$ は尤度、$P(A|B)$ は事後確率、$P(B)$ は周辺確率(正規化定数)である。
ベイズの定理は条件付き確率と乗法定理から直接導かれる。分母 $P(B)$ は全確率の法則(law of total probability)を用いて展開できる。
$$P(B) = \sum_{i} P(B|A_i) \cdot P(A_i)$$
ここで ${A_1, A_2, \ldots, A_n}$ は標本空間の排反かつ網羅的な分割である。
graph LR
subgraph "情報更新プロセス"
A["事前確率 P(A)"] --> C["ベイズの定理"]
B["尤度 P(B|A)"] --> C
C --> D["事後確率 P(A|B)"]
end
E["新たなデータ B"] --> B
ビジネスにおける応用: 品質管理の例¶
ベイズの定理の実務的な重要性を、製品の品質検査の例で示す。
ある製造ラインの不良品率は2%($P(D) = 0.02$)である。検査装置は、不良品を正しく不良と判定する確率(感度)が95%($P(+|D) = 0.95$)、良品を正しく良品と判定する確率(特異度)が90%($P(-|D^c) = 0.90$)である。
検査で「不良」と判定された製品が実際に不良品である確率を求める。
まず、$P(+|D^c) = 1 - 0.90 = 0.10$(偽陽性率)である。
$$P(D|+) = \frac{P(+|D) \cdot P(D)}{P(+|D) \cdot P(D) + P(+|D^c) \cdot P(D^c)}$$
$$= \frac{0.95 \times 0.02}{0.95 \times 0.02 + 0.10 \times 0.98} = \frac{0.019}{0.019 + 0.098} = \frac{0.019}{0.117} \approx 0.162$$
すなわち、検査で「不良」と判定された製品のうち、実際に不良品であるものは約16.2%にすぎない。これは直観に反する結果であり、基準率の錯誤(base rate fallacy)として知られる認知バイアスの典型例である。不良品率(基準率)が2%と低いため、偽陽性率が10%であっても偽陽性の絶対数が真陽性を大きく上回るのである。
この結果は品質管理において、検査の陽性適中率を向上させるには検査精度の向上だけでなく、検査対象の絞り込み(不良品率の高い工程のみを検査する等)が有効であることを示唆している。
確率変数と確率分布¶
確率変数¶
Key Concept: 確率変数(Random Variable) 標本空間の各結果に実数値を対応させる関数。大文字 $X, Y, Z$ で表し、確率変数がとる具体的な値は小文字 $x, y, z$ で表す。
確率変数は、確率的な現象の結果を数値化する仕組みである。サイコロの出目そのものが確率変数であり、「1日あたりの顧客問い合わせ件数」「来月の売上高」なども確率変数として扱える。
確率変数は取り得る値の性質によって2種類に分類される。
- 離散型確率変数(discrete random variable): 有限個または可算無限個の値をとる。不良品の数、顧客の来店人数、クリック回数など。
- 連続型確率変数(continuous random variable): ある区間内の任意の実数値をとる。売上高、株価リターン、生産量、待ち時間など。
確率分布¶
確率変数がどの値をどのような確率でとるかを規定するのが確率分布(probability distribution)である。
離散型の確率分布は確率質量関数(probability mass function; PMF) $P(X = x)$ で記述される。すべての $x$ について $P(X = x) \geq 0$ であり、すべての値にわたる総和は1に等しい: $\sum_x P(X = x) = 1$。
連続型の確率分布は確率密度関数(probability density function; PDF) $f(x)$ で記述される。連続型の場合、特定の1点をとる確率は0であり($P(X = x) = 0$)、確率は区間に対して定義される: $P(a \leq X \leq b) = \int_a^b f(x) \, dx$。密度関数の全区間にわたる積分は1に等しい: $\int_{-\infty}^{\infty} f(x) \, dx = 1$。
いずれの場合も、累積分布関数(cumulative distribution function; CDF) $F(x) = P(X \leq x)$ により、確率変数がある値以下となる確率を表現できる。
期待値と分散¶
Key Concept: 期待値(Expected Value) 確率変数の「確率で重み付けした平均」。離散型では $E[X] = \sum_x x \cdot P(X = x)$、連続型では $E[X] = \int_{-\infty}^{\infty} x \cdot f(x) \, dx$ で定義される。記号 $\mu$ でも表す。
期待値は記述統計における平均値の確率論的一般化であり、確率変数の分布の「重心」に相当する。期待値の重要な性質として線形性がある: $E[aX + bY] = aE[X] + bE[Y]$($a, b$ は定数)。この性質は $X$ と $Y$ が独立でなくても成り立つ。
記述統計で学んだ分散・標準偏差も確率変数に対して定義される。
$$V[X] = E[(X - \mu)^2] = E[X^2] - (E[X])^2$$
標準偏差は $\sigma = \sqrt{V[X]}$ である。分散についても重要な性質がある: $X$ と $Y$ が独立であれば $V[X + Y] = V[X] + V[Y]$ が成り立つ。ただし、独立でない場合は共分散の項が必要になる。
ポートフォリオへの応用¶
期待値と分散の概念は金融におけるポートフォリオ理論の基礎を成す。2つの資産のリターンを確率変数 $R_1, R_2$、投資比率を $w_1, w_2$($w_1 + w_2 = 1$)とすると、ポートフォリオ全体のリターン $R_p = w_1 R_1 + w_2 R_2$ について、
$$E[R_p] = w_1 E[R_1] + w_2 E[R_2]$$
$$V[R_p] = w_1^2 V[R_1] + w_2^2 V[R_2] + 2 w_1 w_2 \text{Cov}(R_1, R_2)$$
相関の低い(あるいは負の相関を持つ)資産を組み合わせることで、ポートフォリオ全体のリスク(分散)を低減できる。これが分散投資の数学的根拠である。
主要な離散分布¶
graph TD
A["確率分布"] --> B["離散型"]
A --> C["連続型"]
B --> B1["ベルヌーイ分布"]
B1 --> B2["二項分布"]
B --> B3["ポアソン分布"]
C --> C1["一様分布"]
C --> C2["正規分布"]
C2 --> C3["標準正規分布"]
二項分布¶
Key Concept: 二項分布(Binomial Distribution) 成功確率 $p$ のベルヌーイ試行を $n$ 回独立に繰り返したとき、成功回数 $X$ が従う分布。$X \sim B(n, p)$ と表記し、確率質量関数は $P(X = k) = \binom{n}{k} p^k (1-p)^{n-k}$($k = 0, 1, \ldots, n$)である。期待値は $E[X] = np$、分散は $V[X] = np(1-p)$。
二項分布はベルヌーイ試行(bernoulli trial)— 結果が「成功」「失敗」の2値のみであり、各試行の成功確率が一定で、試行間が独立 — を基盤とする。個々の1回の試行(成功確率 $p$、失敗確率 $1-p$)に対応する分布がベルヌーイ分布であり、二項分布は $n$ 個のベルヌーイ分布の和である。
ビジネス応用例: マーケティングキャンペーンの効果測定
あるメール配信キャンペーンのクリック率(CTR)が5%($p = 0.05$)であり、1,000通のメールを配信する場合($n = 1000$)、クリック数 $X$ は $B(1000, 0.05)$ に従う。
- 期待クリック数: $E[X] = 1000 \times 0.05 = 50$
- クリック数の標準偏差: $\sigma = \sqrt{1000 \times 0.05 \times 0.95} \approx 6.89$
したがって、おおよそ 50 $\pm$ 14 回(平均 $\pm$ 2標準偏差の範囲)のクリックが約95%の確率で観測されると予想できる。実際のクリック数がこの範囲を大きく外れた場合、キャンペーンの効果に通常と異なる変化が生じた可能性が示唆される。
ポアソン分布¶
Key Concept: ポアソン分布(Poisson Distribution) 一定の時間・空間内にある事象が発生する回数の分布。平均発生回数を $\lambda$ として $X \sim \text{Poi}(\lambda)$ と表記し、確率質量関数は $P(X = k) = \frac{\lambda^k e^{-\lambda}}{k!}$($k = 0, 1, 2, \ldots$)である。期待値・分散ともに $\lambda$ に等しい: $E[X] = V[X] = \lambda$。
ポアソン分布は「稀な事象の発生回数」をモデル化する分布であり、以下の条件が満たされる場合に適用可能である。
- 事象は独立に発生する
- 2つの事象が同時に発生する確率は無視できる
- 平均発生率 $\lambda$ は時間・空間にわたって一定である
ビジネス応用例: コールセンターへの1時間あたりの入電数(平均12件)、Webサイトへの1分間あたりのアクセス数、保険における1年あたりの事故件数など。
ポアソン分布は二項分布の極限としても導出される。$n$ が大きく $p$ が小さい場合、$B(n, p)$ は $\text{Poi}(\lambda = np)$ で近似できる(ポアソン近似)。
主要な連続分布¶
一様分布¶
一様分布(uniform distribution)は区間 $[a, b]$ 上で確率密度が一定となる最も単純な連続分布であり、$X \sim U(a, b)$ と表記する。確率密度関数は $f(x) = \frac{1}{b-a}$($a \leq x \leq b$)である。期待値は $E[X] = \frac{a+b}{2}$、分散は $V[X] = \frac{(b-a)^2}{12}$ である。乱数生成の基礎として、またシミュレーションの出発点として使用される。
正規分布¶
Key Concept: 正規分布(Normal Distribution) 平均 $\mu$ と分散 $\sigma^2$ をパラメータとする連続分布であり、$X \sim N(\mu, \sigma^2)$ と表記する。確率密度関数は $f(x) = \frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)$ である。左右対称のベル型の曲線を描き、自然現象・社会現象における多くのデータの分布を近似する。
正規分布は統計学において最も重要な分布であり、その地位は以下の理由による。
- 多くの現象のモデル: 身長、体重、試験成績、測定誤差など多くの量が近似的に正規分布に従う
- 中心極限定理: 独立な確率変数の和(平均)が正規分布に収束する
- 数学的取扱いの容易さ: 平均と分散のみで完全に特定され、解析的性質に優れる
正規分布の重要な性質として以下がある。
- 対称性: 平均 $\mu$ を中心に左右対称であり、歪度は0
- 68-95-99.7の法則: データの約68%が $\mu \pm \sigma$、約95%が $\mu \pm 2\sigma$、約99.7%が $\mu \pm 3\sigma$ の範囲内に含まれる
- 線形変換の閉性: $X \sim N(\mu, \sigma^2)$ のとき $aX + b \sim N(a\mu + b, a^2\sigma^2)$
- 再生性: 独立な正規確率変数の和も正規分布に従う
標準正規分布とz変換¶
$\mu = 0, \sigma^2 = 1$ の正規分布を標準正規分布(standard normal distribution)と呼び、$Z \sim N(0, 1)$ と表記する。任意の正規確率変数 $X \sim N(\mu, \sigma^2)$ は、
$$Z = \frac{X - \mu}{\sigma}$$
と変換することで標準正規分布に従う変数に変換できる。この変換はまさに記述統計で学んだzスコア(→ Module 1-2, Section 1「記述統計」参照)の確率論的定式化である。
標準正規分布表(z表)を用いることで、任意の正規分布に従う確率変数の確率計算が可能になる。
計算例: ある製品の重量が $N(500, 10^2)$(平均500g、標準偏差10g)に従うとする。重量が480g以下となる確率は、
$$Z = \frac{480 - 500}{10} = -2.0$$
$P(Z \leq -2.0) \approx 0.0228$
すなわち約2.3%の製品が480g以下となる。品質基準として「480g以上520g以下」を設定した場合、$P(-2 \leq Z \leq 2) \approx 0.9544$ であり、約95.4%の製品がこの範囲に収まる。
中心極限定理¶
Key Concept: 中心極限定理(Central Limit Theorem; CLT) 平均 $\mu$、分散 $\sigma^2$ を持つ任意の分布から無作為に抽出した $n$ 個の標本の平均 $\bar{X}$ は、$n$ が十分に大きいとき、近似的に正規分布 $N\left(\mu, \frac{\sigma^2}{n}\right)$ に従う。元の分布の形状にかかわらず成り立つ。
中心極限定理は確率論において最も重要な定理の一つであり、推測統計の理論的基盤を成す。その意義を3つの観点から整理する。
定理の内容¶
母集団の分布が何であれ(正規分布でなくても、離散分布であっても)、標本平均 $\bar{X} = \frac{1}{n}\sum_{i=1}^n X_i$ の分布は、$n$ が大きくなるにつれて正規分布に近づく。数学的には、
$$\frac{\bar{X} - \mu}{\sigma / \sqrt{n}} \xrightarrow{d} N(0, 1) \quad (n \to \infty)$$
ここで $\sigma / \sqrt{n}$ は標本平均の標準偏差であり、標準誤差(standard error; SE) と呼ばれる。標準誤差はサンプルサイズ $n$ の平方根に反比例して小さくなるため、サンプルサイズを増やすほど標本平均の推定精度は向上する。ただし、精度を2倍にするには $n$ を4倍にする必要がある。
実用上、$n \geq 30$ であれば正規近似が十分に良好であるとされることが多いが、元の分布が極端に歪んでいる場合はより大きな $n$ が必要になる。
推測統計への橋渡し¶
中心極限定理が推測統計の基盤となる理由は明確である。母集団がどのような分布に従っていても、標本平均の分布が正規分布で近似できるならば、正規分布の性質を利用して以下が可能になる。
- 区間推定: 母平均 $\mu$ に対する信頼区間の構成
- 仮説検定: 母平均に関する仮説の統計的検定
- サンプルサイズの決定: 所望の精度を達成するために必要な標本の大きさの算出
これらの手法はすべて、標本平均の分布が正規分布に従うという中心極限定理の保証に依拠している(→ Module 1-2, Section 3「推測統計」参照)。
サンプリング調査と中心極限定理¶
中心極限定理は、なぜ比較的少数のサンプルから母集団全体の特性を推定できるのかを説明する。たとえば、日本の有権者の支持率調査で約1,000人に聞けば十分な精度が得られるのは、中心極限定理により標本平均(標本比率)が正規分布に従い、その標準誤差が $\sqrt{p(1-p)/n}$ で計算可能だからである。$p = 0.5$(最も分散が大きいケース)、$n = 1000$ とすると、標準誤差は約1.6%であり、95%信頼区間の幅は約 $\pm 3.1$ ポイントとなる。
まとめ¶
- 確率はコルモゴロフの公理(非負性・正規性・加法性)により厳密に定義される。確率の解釈には古典的・頻度論的・主観的の3つの立場がある
- 条件付き確率 $P(A|B)$ は「Bが起こった下でのAの確率」を定量化し、ベイズの定理は事前確率をデータに基づいて事後確率へ更新する枠組みを提供する
- ベイズの定理は品質管理や検査の場面で重要であり、基準率の低い状況での偽陽性問題(基準率の錯誤)を理解する鍵となる
- 確率変数は離散型と連続型に分類され、それぞれ確率質量関数(PMF)と確率密度関数(PDF)で記述される
- 期待値と分散は記述統計の平均・分散の確率論的一般化であり、ポートフォリオ理論の数学的基盤を成す
- 二項分布はベルヌーイ試行の成功回数、ポアソン分布は稀な事象の発生回数をモデル化する
- 正規分布は統計学で最も重要な分布であり、68-95-99.7の法則やz変換を通じて広く活用される
- 中心極限定理は、元の分布の形状にかかわらず標本平均が正規分布に近づくことを保証し、推測統計のあらゆる手法の理論的基盤を提供する
- 次のセクション(→ Module 1-2, Section 3「推測統計」参照)では、中心極限定理を直接応用し、区間推定と仮説検定の手法を学ぶ
用語集(Glossary)¶
| 用語 | 英語表記 | 定義 |
|---|---|---|
| 標本空間 | Sample Space | ある試行において起こり得るすべての結果の集合 |
| 事象 | Event | 標本空間の部分集合。ある条件を満たす結果の集まり |
| 確率 | Probability | 事象に割り当てられる0から1の実数値。起こりやすさの定量化 |
| 条件付き確率 | Conditional Probability | 別の事象が起こった条件の下での確率。$P(A |
| 独立 | Independence | 一方の事象の発生が他方の確率に影響しない関係 |
| ベイズの定理 | Bayes' Theorem | 事前確率をデータに基づいて事後確率へ更新する公式 |
| 確率変数 | Random Variable | 標本空間の各結果に実数値を対応させる関数 |
| 確率質量関数 | Probability Mass Function (PMF) | 離散型確率変数が各値をとる確率を定める関数 |
| 確率密度関数 | Probability Density Function (PDF) | 連続型確率変数の確率を区間の積分として定める関数 |
| 累積分布関数 | Cumulative Distribution Function (CDF) | 確率変数がある値以下となる確率を表す関数 |
| 期待値 | Expected Value | 確率で重み付けした確率変数の平均値 |
| 二項分布 | Binomial Distribution | $n$ 回のベルヌーイ試行における成功回数の分布 |
| ポアソン分布 | Poisson Distribution | 一定区間内での稀な事象の発生回数の分布 |
| 正規分布 | Normal Distribution | 平均と分散で特定されるベル型の連続分布 |
| 標準正規分布 | Standard Normal Distribution | 平均0、分散1の正規分布 |
| 中心極限定理 | Central Limit Theorem (CLT) | 標本平均の分布が正規分布に近づくことを保証する定理 |
| 標準誤差 | Standard Error (SE) | 標本平均の標準偏差 $\sigma / \sqrt{n}$ |
確認問題¶
Q1: コルモゴロフの確率の公理3条件を述べよ。また、加法定理 $P(A \cup B) = P(A) + P(B) - P(A \cap B)$ がこれらの公理からどのように導かれるか、概略を説明せよ。
A1: コルモゴロフの公理は (1) 非負性: $P(A) \geq 0$、(2) 正規性: $P(\Omega) = 1$、(3) 可算加法性: 互いに排反な事象列に対して確率の和が成り立つ、の3つである。加法定理の導出: $A \cup B$ を $A \cap B^c$(Aのみ)、$A \cap B$(共通部分)、$A^c \cap B$(Bのみ)の3つの排反事象に分解する。公理3より $P(A \cup B) = P(A \cap B^c) + P(A \cap B) + P(A^c \cap B)$。ここで $P(A) = P(A \cap B^c) + P(A \cap B)$、$P(B) = P(A^c \cap B) + P(A \cap B)$ なので、$P(A) + P(B) = P(A \cap B^c) + 2P(A \cap B) + P(A^c \cap B) = P(A \cup B) + P(A \cap B)$。したがって $P(A \cup B) = P(A) + P(B) - P(A \cap B)$ が得られる。
Q2: ある工場で製品の不良率が3%であり、検査装置の感度(不良品を不良と判定する確率)が90%、特異度(良品を良品と判定する確率)が95%であるとする。検査で「不良」と判定された製品が実際に不良品である確率をベイズの定理を用いて求め、この結果が品質管理の実務にどのような示唆を与えるか述べよ。
A2: $P(D) = 0.03$、$P(+|D) = 0.90$、$P(-|D^c) = 0.95$ より $P(+|D^c) = 0.05$。ベイズの定理より $P(D|+) = \frac{0.90 \times 0.03}{0.90 \times 0.03 + 0.05 \times 0.97} = \frac{0.027}{0.027 + 0.0485} = \frac{0.027}{0.0755} \approx 0.357$。すなわち、検査で不良と判定された製品の約35.7%が実際に不良品である。残りの約64.3%は良品の誤判定(偽陽性)である。この結果は、不良率が低い場合に偽陽性が支配的になることを示しており、検査の陽性適中率を向上させるには、特異度の改善(偽陽性率の低減)が感度の改善よりも効果的であることを示唆している。また、二段階検査(一次スクリーニング後に精密検査)による偽陽性の低減も有効な対策である。
Q3: 中心極限定理がなぜ推測統計の基盤となるか、以下のキーワードをすべて用いて説明せよ: 母集団の分布、標本平均、正規分布、標準誤差、信頼区間。
A3: 中心極限定理は、母集団の分布の形状がどのようなものであっても(正規分布でなくても、歪んでいても)、サンプルサイズ $n$ が十分に大きければ、標本平均 $\bar{X}$ の分布が近似的に正規分布に従うことを保証する。この標本平均の標準偏差(標準誤差 $\sigma / \sqrt{n}$)が計算可能であることから、標本平均が母平均 $\mu$ からどの程度離れ得るかを確率的に評価できる。この性質により、母平均に対する信頼区間(例えば95%信頼区間 $\bar{X} \pm 1.96 \times SE$)の構成が可能になる。すなわち、中心極限定理は母集団に関する知識が限定的であっても、標本から母集団の特性を推定する道を開くものであり、推測統計のあらゆる手法(区間推定、仮説検定、サンプルサイズ設計)の理論的根拠を提供する。
Q4: 二項分布とポアソン分布の適用場面の違いを、それぞれの前提条件に基づいて説明し、各分布がモデル化するビジネス上の事象を1つずつ例示せよ。
A4: 二項分布は、試行回数 $n$ が有限で確定しており、各試行が「成功」「失敗」の2値をとり、成功確率 $p$ が一定で、試行間が独立であるという前提(ベルヌーイ試行)の下で、成功回数をモデル化する。例: 100名の新規顧客に対するアップセル提案の成功件数(成功確率20%)。一方、ポアソン分布は、事象が連続的な時間または空間の中で独立に発生し、同時発生の確率は無視でき、平均発生率 $\lambda$ が一定であるという前提の下で、一定区間内の発生回数をモデル化する。例: コールセンターにおける1時間あたりの入電件数(平均15件)。本質的な違いは、二項分布では「母数としての試行回数 $n$」が明確に定義されるのに対し、ポアソン分布では試行回数という概念がなく、「一定の区間における発生回数」を直接モデル化する点にある。
Q5: ある投資ファンドの月間リターンの分布が $N(1.5\%, 4\%^2)$(平均1.5%、標準偏差4%)に従うと仮定する。ある月のリターンが-6.5%以下となる確率を求め、この計算がどのようなリスク管理上の判断に活用されるか述べよ。
A5: $Z = \frac{-6.5 - 1.5}{4} = \frac{-8}{4} = -2.0$。$P(Z \leq -2.0) \approx 0.0228$。すなわち、リターンが-6.5%以下となる確率は約2.3%である。このような計算は、VaR(Value at Risk)の算出に直接活用される。例えば「月次95%VaR」は下位5パーセンタイルに対応するリターン水準であり、$1.5 - 1.645 \times 4 = -5.08\%$ と計算できる。これは「95%の確率でリターンが-5.08%を下回ることはない」(逆に5%の確率で-5.08%以上の損失が生じ得る)ことを意味し、リスクの定量的な把握と資本配分の判断に用いられる。ただし、実際の金融リターンの分布は正規分布よりも裾が重い(ファットテール、→ Module 1-2, Section 1「記述統計」参照で述べた超過尖度を持つ)ことが多く、正規分布の仮定に基づくリスク評価は極端な損失を過小評価する可能性がある点に留意が必要である。