コンテンツにスキップ

Module 1-2 - Section 3: 推測統計

セクション情報

項目 内容
モジュール Module 1-2: 統計学・データ分析基礎
前提セクション Section 2
想定学習時間 3時間

導入

前セクション(→ Module 1-2, Section 2「確率と確率分布」参照)で到達した中心極限定理は、母集団の分布形状にかかわらず、標本平均の分布が正規分布に近づくことを保証する定理であった。この定理により、標本から母集団について確率的に推論する道が開かれる。

本セクションでは、中心極限定理を直接的に応用し、標本データから母集団の特性を推論する体系的枠組みである推測統計(inferential statistics)を学ぶ。推測統計は大きく2つの柱からなる。第一は推定(estimation)であり、母集団パラメータの値を標本から推し量る手法である。第二は仮説検定(hypothesis testing)であり、母集団に関するある主張の妥当性を標本データに基づいて判定する手法である。

経営の文脈では、推測統計は市場調査の結果から消費者全体の行動を推定する場面、製造工程の品質が規格を満たしているか検証する場面、A/Bテストで施策の効果を評価する場面など、データに基づく意思決定のあらゆる局面で不可欠である。


母集団と標本

母集団パラメータと標本統計量

Key Concept: 母集団(Population) 関心の対象となるすべての個体・測定値の集合。母集団の特性を表す数値(平均 $\mu$、分散 $\sigma^2$、比率 $p$ など)を母集団パラメータ(population parameter)と呼ぶ。母集団パラメータは通常は未知であり、標本から推定する対象である。

Key Concept: 標本(Sample) 母集団から抽出された部分集合。標本から計算される数値(標本平均 $\bar{X}$、標本分散 $s^2$、標本比率 $\hat{p}$ など)を標本統計量(sample statistic)と呼ぶ。標本統計量は母集団パラメータの推定に用いられる。

母集団パラメータと標本統計量の対応関係を以下に整理する。

母集団パラメータ 記号 対応する標本統計量 記号
母平均 $\mu$ 標本平均 $\bar{X}$
母分散 $\sigma^2$ 標本分散 $s^2$
母比率 $p$ 標本比率 $\hat{p}$

標本から母集団について正しく推論するためには、標本が母集団を偏りなく代表していることが前提となる。この前提を確保するのが適切な標本抽出法である。

標本抽出法

標本抽出法は確率抽出法と非確率抽出法に大別されるが、推測統計の理論は確率抽出法を前提とする。主要な確率抽出法は以下の3つである。

単純無作為抽出(simple random sampling): 母集団のすべての個体が等しい確率で選ばれる方法。最も基本的な抽出法であり、推測統計の理論の多くがこの方法を前提とする。ただし、母集団が非常に大きい場合や地理的に分散している場合は実施コストが高くなる。

層化抽出(stratified sampling): 母集団をいくつかの層(stratum)に分割し、各層から独立に無作為抽出する方法。たとえば、従業員満足度調査で部門ごとに層化すれば、特定部門が過剰または過少に代表されることを防げる。単純無作為抽出に比べて推定の精度が向上することが多い。

クラスター抽出(cluster sampling): 母集団をクラスター(集団)に分割し、無作為に選んだクラスター内の全個体を調査する方法。全国の小売店舗を調査する際に、まず地域をクラスターとして無作為に選び、選ばれた地域内の全店舗を調査するような場合に用いる。調査コストを抑えられるが、クラスター内の個体が類似している場合には推定精度が低下する。


点推定

推定量と推定値

Key Concept: 点推定(Point Estimation) 母集団パラメータの値を1つの数値で推定すること。推定に用いる標本統計量の計算規則を推定量(estimator)、具体的なデータに基づいて計算された数値を推定値(estimate)と呼ぶ。

たとえば、標本平均 $\bar{X} = \frac{1}{n}\sum_{i=1}^n X_i$ は母平均 $\mu$ の推定量であり、具体的なデータから計算された $\bar{x} = 52.3$ などの値が推定値である。推定量は確率変数であり、推定値はその実現値(observed value)である。

推定量の望ましい性質

母集団パラメータの推定量には無数の候補があり得るが、優れた推定量を選ぶための基準として以下の3つの性質が重要である。

不偏性(unbiasedness): 推定量の期待値が母集団パラメータに等しいこと。すなわち $E[\hat{\theta}] = \theta$ が成り立つとき、$\hat{\theta}$ は $\theta$ の不偏推定量(unbiased estimator)である。標本平均 $\bar{X}$ は母平均 $\mu$ の不偏推定量である($E[\bar{X}] = \mu$)。標本分散については、$n$ で割ったもの($\frac{1}{n}\sum(X_i - \bar{X})^2$)は $\sigma^2$ の不偏推定量ではなく、$n-1$ で割ったもの($s^2 = \frac{1}{n-1}\sum(X_i - \bar{X})^2$)が不偏推定量となる。$n-1$ で割る理由は、標本平均 $\bar{X}$ を計算に使うことで自由度が1つ失われるためである。

有効性(efficiency): 不偏推定量の中で分散が最小のものが最も有効な推定量である。分散が小さいほど、推定値が母集団パラメータの周りに集中しやすい。正規母集団の場合、標本平均は母平均の最小分散不偏推定量(MVUE: Minimum Variance Unbiased Estimator)である。

一致性(consistency): サンプルサイズ $n$ が大きくなるにつれて、推定量が母集団パラメータに確率収束すること。すなわち、任意の $\epsilon > 0$ に対して $P(|\hat{\theta}_n - \theta| > \epsilon) \to 0$($n \to \infty$)が成り立つ。一致性は「データを十分に集めれば正しい値に近づく」という保証であり、実用上極めて重要な性質である。標本平均と標本分散はいずれも一致推定量である。


区間推定

信頼区間の概念

点推定は母集団パラメータの値を1つの数値で示すため、推定の不確実性を表現できない。区間推定はこの限界を克服する手法である。

Key Concept: 信頼区間(Confidence Interval) 母集団パラメータが含まれると期待される区間。$100(1-\alpha)\%$ 信頼区間とは、同じ方法で標本を繰り返し抽出し区間を構成した場合に、その区間が真のパラメータを含む割合が長期的に $100(1-\alpha)\%$ になることを意味する。

95%信頼区間の正しい解釈は「この方法で区間を繰り返し構成すれば、100回中約95回は真のパラメータを含む」であり、「真のパラメータがこの区間に含まれる確率が95%である」という解釈は厳密には誤りである。頻度論的な枠組みでは、母集団パラメータは定数であって確率変数ではないためである。この区別は概念的に重要であるが、実務上は「真の値がこの範囲にあると高い確信を持てる」という直観的理解で運用されることが多い。

母平均の信頼区間

母平均 $\mu$ の信頼区間の構成方法は、母分散 $\sigma^2$ が既知か未知かによって異なる。

母分散が既知の場合(z区間): 中心極限定理より、標本平均の標準化統計量 $Z = \frac{\bar{X} - \mu}{\sigma / \sqrt{n}}$ は近似的に標準正規分布 $N(0, 1)$ に従う。$z_{\alpha/2}$ を標準正規分布の上側 $\alpha/2$ 点とすると、$100(1-\alpha)\%$ 信頼区間は

$$\bar{X} \pm z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}$$

で与えられる。95%信頼区間の場合、$z_{0.025} = 1.96$ であり、

$$\bar{X} \pm 1.96 \cdot \frac{\sigma}{\sqrt{n}}$$

となる。

母分散が未知の場合(t区間): 実際の分析では母分散が既知であることは稀であり、標本分散 $s^2$ で代用する。このとき、$T = \frac{\bar{X} - \mu}{s / \sqrt{n}}$ は自由度 $n-1$ の t分布(Student's t-distribution) に従う。t分布は正規分布に似た左右対称のベル型の分布であるが、正規分布よりも裾が厚い(より極端な値が出やすい)。自由度が大きくなるにつれてt分布は標準正規分布に近づく。$t_{\alpha/2, n-1}$ を自由度 $n-1$ のt分布の上側 $\alpha/2$ 点とすると、$100(1-\alpha)\%$ 信頼区間は

$$\bar{X} \pm t_{\alpha/2, n-1} \cdot \frac{s}{\sqrt{n}}$$

で与えられる。

: ある小売チェーンで16店舗を無作為に選び、1日あたりの売上を調査したところ、標本平均が $\bar{x} = 85$ 万円、標本標準偏差が $s = 12$ 万円であった。母平均の95%信頼区間を求める。母分散は未知なのでt区間を用いる。自由度 $n - 1 = 15$ のt分布の上側2.5%点は $t_{0.025, 15} \approx 2.131$ であるから、

$$85 \pm 2.131 \times \frac{12}{\sqrt{16}} = 85 \pm 2.131 \times 3 = 85 \pm 6.39$$

すなわち、95%信頼区間は $[78.61, 91.39]$(万円)となる。

標本サイズと信頼区間の幅

信頼区間の幅 $2 \times z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}$(z区間の場合)から明らかなように、信頼区間の幅は以下の要因に依存する。

  1. 標本サイズ $n$: $n$ が大きくなると幅は $\frac{1}{\sqrt{n}}$ に比例して狭くなる。幅を半分にするには $n$ を4倍にする必要がある
  2. 母集団の分散 $\sigma^2$: 分散が大きいほど幅が広くなる
  3. 信頼水準 $1 - \alpha$: 信頼水準を高くする(例: 95%→99%)と $z_{\alpha/2}$ が大きくなり、幅が広がる

必要な標本サイズの決定は実務上重要な問題である。所望の誤差幅(margin of error)を $E$ とすると、必要な標本サイズは $n = \left(\frac{z_{\alpha/2} \cdot \sigma}{E}\right)^2$ で計算できる。たとえば、95%信頼水準で誤差幅を $\pm 2$ 万円以内にしたい場合、$\sigma = 12$ 万円と仮定すると、$n = \left(\frac{1.96 \times 12}{2}\right)^2 = (11.76)^2 \approx 139$ 店舗が必要である。


仮説検定の枠組み

帰無仮説と対立仮説

Key Concept: 帰無仮説(Null Hypothesis) 「効果がない」「差がない」「変化がない」という現状維持を主張する仮説であり、$H_0$ で表す。検定はこの仮説を棄却するかどうかを判定する手続きである。

Key Concept: 対立仮説(Alternative Hypothesis) 帰無仮説に対立する主張であり、$H_1$(または $H_a$)で表す。研究者が示したい仮説(研究仮説)を対立仮説として設定するのが一般的である。

仮説検定の論理構造は背理法に類似している。帰無仮説が正しいと仮定した上で、観測データがその仮説の下で極めて起こりにくい場合に帰無仮説を棄却し、対立仮説を採択する。帰無仮説を棄却できない場合は「帰無仮説を受容する」のではなく、「帰無仮説を棄却する十分な証拠がない」と解釈する。これは刑事裁判における「無罪推定」と同様の論理であり、有罪(対立仮説)の証拠が十分でなければ無罪(帰無仮説)の判定を維持する。

対立仮説の設定によって、検定は以下の3種に分類される。

種類 $H_0$ $H_1$ 棄却域
両側検定 $\mu = \mu_0$ $\mu \neq \mu_0$ 分布の両端
右片側検定 $\mu \leq \mu_0$ $\mu > \mu_0$ 分布の右端
左片側検定 $\mu \geq \mu_0$ $\mu < \mu_0$ 分布の左端

第一種の過誤と第二種の過誤

仮説検定では2種類の誤った判断を犯す可能性がある。

Key Concept: 第一種の過誤(Type I Error) 帰無仮説が実際には正しいにもかかわらず、それを棄却してしまう誤り。その確率を $\alpha$ で表し、有意水準(significance level)として検定者が事前に設定する。

Key Concept: 第二種の過誤(Type II Error) 帰無仮説が実際には誤っているにもかかわらず、それを棄却できない誤り。その確率を $\beta$ で表す。

$H_0$ が真 $H_0$ が偽
$H_0$ を棄却しない 正しい判断 第二種の過誤($\beta$)
$H_0$ を棄却する 第一種の過誤($\alpha$) 正しい判断(検出力 $1-\beta$)

$\alpha$ と $\beta$ はトレードオフの関係にあり、一方を小さくすると他方が大きくなる。標本サイズ $n$ を増やすことが、$\alpha$ を固定したまま $\beta$ を減少させる(検出力を高める)唯一の方法である。

検定統計量とp値

仮説検定の手順は以下のフローで構成される。

graph TD
    A["1. 仮説の設定"] --> B["2. 有意水準の決定"]
    B --> C["3. 検定統計量の計算"]
    C --> D["4. p値の算出"]
    D --> E{"p値 < 有意水準?"}
    E -- Yes --> F["H0を棄却"]
    E -- No --> G["H0を棄却しない"]

検定統計量(test statistic)は、帰無仮説の下で標本統計量がどの程度極端な値をとっているかを測る指標である。母平均の検定の場合、$Z = \frac{\bar{X} - \mu_0}{\sigma / \sqrt{n}}$($\sigma$ 既知)または $T = \frac{\bar{X} - \mu_0}{s / \sqrt{n}}$($\sigma$ 未知)が検定統計量となる。

Key Concept: p値(p-value) 帰無仮説が正しいと仮定したとき、観測されたデータと同等以上に極端な結果が得られる確率。p値が小さいほど、観測データは帰無仮説と矛盾しており、p値が有意水準 $\alpha$ を下回れば帰無仮説を棄却する。

p値の解釈について重要な注意がある。p値は「帰無仮説が正しい確率」ではない。p値は「帰無仮説が正しいという前提の下で、観測データ以上に極端な結果が得られる確率」である。この区別は見落とされがちであるが、統計的推論の正しい理解に不可欠である。


主要な検定手法

母平均の検定

z検定: 母分散 $\sigma^2$ が既知の場合に用いる。検定統計量は $Z = \frac{\bar{X} - \mu_0}{\sigma / \sqrt{n}}$ であり、標準正規分布に従う。

t検定(1標本): 母分散が未知の場合に用いる。検定統計量は $T = \frac{\bar{X} - \mu_0}{s / \sqrt{n}}$ であり、自由度 $n-1$ のt分布に従う。

例(品質管理): ある製造ラインで生産される部品の規格重量は500gである。無作為に抽出した25個の部品の重量を測定したところ、標本平均 $\bar{x} = 502.4$ g、標本標準偏差 $s = 5.0$ gであった。製造ラインが規格通りに稼働しているかを有意水準5%で検定する。

  • $H_0: \mu = 500$、$H_1: \mu \neq 500$(両側検定)
  • $T = \frac{502.4 - 500}{5.0 / \sqrt{25}} = \frac{2.4}{1.0} = 2.4$
  • 自由度24のt分布で $|T| = 2.4$ に対応するp値は約0.024
  • p値 $= 0.024 < 0.05 = \alpha$ であるから $H_0$ を棄却する
  • 結論: 製造ラインの平均重量は規格値500gと統計的に有意に異なるといえる

母比率の検定

母比率 $p$ に関する検定は、$n$ が十分に大きい場合($np_0 \geq 5$ かつ $n(1-p_0) \geq 5$)に正規近似を用いて行う。検定統計量は

$$Z = \frac{\hat{p} - p_0}{\sqrt{p_0(1-p_0)/n}}$$

であり、近似的に標準正規分布に従う。

例(市場調査): ある新製品について、消費者1,000人を対象に購買意向を調査したところ、320人(32%)が「購入したい」と回答した。市場投入の判断基準として設定した「購買意向率30%」を超えているかを有意水準5%で検定する。

  • $H_0: p \leq 0.30$、$H_1: p > 0.30$(右片側検定)
  • $Z = \frac{0.32 - 0.30}{\sqrt{0.30 \times 0.70 / 1000}} = \frac{0.02}{0.01449} \approx 1.38$
  • 右片側p値 $\approx 0.084$
  • p値 $= 0.084 > 0.05 = \alpha$ であるから $H_0$ を棄却できない
  • 結論: 購買意向率が30%を超えるという十分な統計的証拠は得られなかった

二標本のt検定

2つの母集団の平均を比較する場面では、二標本のt検定を用いる。データの構造によって対応ありと対応なしに分かれる。

対応なしの二標本t検定(independent two-sample t-test): 2つの独立した集団の平均を比較する。等分散を仮定する場合の検定統計量は

$$T = \frac{\bar{X}_1 - \bar{X}_2}{s_p \sqrt{1/n_1 + 1/n_2}}, \quad s_p = \sqrt{\frac{(n_1-1)s_1^2 + (n_2-1)s_2^2}{n_1 + n_2 - 2}}$$

ここで $s_p$ はプールされた標準偏差(pooled standard deviation)であり、自由度は $n_1 + n_2 - 2$ である。等分散の仮定が妥当でない場合は Welch のt検定を用いる。

対応ありのt検定(paired t-test): 同一の被験者に対して2回の測定を行い、その差を分析する場合に用いる。各ペアの差 $D_i = X_{1i} - X_{2i}$ を計算し、差の平均 $\bar{D}$ と差の標準偏差 $s_D$ を用いて1標本のt検定を行う。

$$T = \frac{\bar{D}}{s_D / \sqrt{n}}$$

自由度は $n - 1$($n$ はペア数)である。

例(A/Bテスト): ECサイトで新デザイン(A群)と旧デザイン(B群)のコンバージョン率を比較した。A群 $n_1 = 500$ のコンバージョン率が $\hat{p}_1 = 0.054$、B群 $n_2 = 500$ のコンバージョン率が $\hat{p}_2 = 0.042$ であった。この場合、二標本比率の検定(z検定の拡張)を適用し、

$$Z = \frac{\hat{p}_1 - \hat{p}_2}{\sqrt{\hat{p}(1-\hat{p})(1/n_1 + 1/n_2)}}, \quad \hat{p} = \frac{n_1\hat{p}_1 + n_2\hat{p}_2}{n_1 + n_2}$$

を計算する。$\hat{p} = \frac{27 + 21}{1000} = 0.048$ とすると、$Z = \frac{0.012}{\sqrt{0.048 \times 0.952 \times 0.004}} \approx \frac{0.012}{0.01353} \approx 0.887$ であり、p値は約0.375となる。この場合、有意水準5%で帰無仮説を棄却できず、コンバージョン率に統計的に有意な差があるとはいえない。


検定の実際的考慮

検出力と標本サイズ

Key Concept: 検出力(Statistical Power) 帰無仮説が偽であるとき、それを正しく棄却する確率。$1 - \beta$ で表される。検出力が高いほど、実際に存在する効果を見逃す確率(第二種の過誤)が低い。

検出力は以下の要因に依存する。

  1. 効果の大きさ: 真のパラメータと帰無仮説の値との差が大きいほど検出力は高い
  2. 標本サイズ $n$: $n$ が大きいほど検出力は高い
  3. 有意水準 $\alpha$: $\alpha$ を大きくすると検出力は高まるが、第一種の過誤のリスクが増す
  4. 母集団の分散: 分散が小さいほど検出力は高い

実務では、研究を実施する前に目標とする検出力(通常80%以上)を設定し、それを達成するために必要な標本サイズを算出する検出力分析(power analysis)を行うことが推奨される。

graph LR
    A["効果量の設定"] --> D["必要標本サイズの算出"]
    B["有意水準の設定"] --> D
    C["目標検出力の設定"] --> D
    D --> E["データ収集・検定の実施"]

統計的有意性と実際的有意性

Key Concept: 効果量(Effect Size) 効果の大きさを標準化した指標であり、標本サイズに依存しない。代表的な効果量指標として、2群の平均差を標準偏差で割った Cohen's d($d = \frac{|\bar{X}_1 - \bar{X}_2|}{s_p}$)がある。$d = 0.2$ を小さい効果、$d = 0.5$ を中程度の効果、$d = 0.8$ を大きい効果とする目安(Cohen, 1988)が広く用いられる。

統計的有意性(statistical significance)と実際的有意性(practical significance)は明確に区別すべき概念である。

  • 統計的有意性: p値が有意水準 $\alpha$ を下回ること。効果の存在を示す
  • 実際的有意性: 効果が実務上意味のある大きさであること。効果の重要性を示す

標本サイズが非常に大きい場合、実務上無視できるほど小さな差であっても統計的に有意になり得る。たとえば、$n = 100{,}000$ の顧客データで、ある施策がコンバージョン率を0.01%ポイント向上させたという結果が「統計的に有意」であっても、そのビジネス上のインパクトは無視できる水準かもしれない。逆に、標本サイズが小さい場合には、実務上重要な差があっても統計的に有意にならないことがある。

したがって、p値だけでなく効果量と信頼区間を併せて報告し、結果の実務的な意味を総合的に評価することが重要である。

多重検定の問題

Key Concept: 多重検定問題(Multiple Testing Problem) 複数の仮説検定を同時に行うとき、全体としての第一種の過誤の確率(族有意水準 / family-wise error rate; FWER)が個々の検定の有意水準 $\alpha$ よりも大きくなる問題。$m$ 個の独立な検定を有意水準 $\alpha = 0.05$ で行うと、少なくとも1つで第一種の過誤を犯す確率は $1 - (1 - \alpha)^m$ であり、$m = 20$ で約64%に達する。

多重検定問題への対処法として以下がある。

Bonferroni補正: 有意水準を検定の数 $m$ で割り、$\alpha / m$ を各検定の有意水準とする。FWERを厳密に $\alpha$ 以下に制御できるが、保守的すぎて検出力が低下する欠点がある。

Holm法(Holm-Bonferroni法): Bonferroni補正を改良した方法で、p値を小さい順に並べて段階的に有意水準を調整する。Bonferroni補正より検出力が高く、FWERも制御できる。

偽発見率(False Discovery Rate; FDR)制御: 棄却された帰無仮説のうち誤って棄却されたものの割合の期待値を制御する方法であり、大量の検定を行うゲノム研究やウェブ分析でよく用いられる。

経営の文脈では、複数のKPIを同時に評価するダッシュボードや、多数のセグメントに対するA/Bテストの分析で多重検定問題が頻繁に生じる。「20個の指標のうち1つだけp < 0.05」という結果は、多重検定を考慮しなければ偽陽性の可能性が高い。

p-hackingと再現性の危機

統計的有意性の追求が行き過ぎると、p-hackingと呼ばれる問題が生じる。p-hackingとは、有意な結果が得られるまでデータの分割方法、変数の選択、外れ値の除外基準、分析手法などを恣意的に変更する行為であり、帰無仮説が正しい場合でもp < 0.05の結果を「発見」できてしまう。

p-hackingを含む問題のある研究慣行(Questionable Research Practices; QRPs)は、心理学や医学をはじめとする多くの分野で再現性の危機(replication crisis)の主要因とされている。対策として、研究計画の事前登録(pre-registration)、効果量と信頼区間の報告、追試の実施などが推奨されている。

ビジネス分析においても、データ探索的に多数の分析を試み、有意な結果が出たものだけを報告するという慣行は本質的にp-hackingと同じ問題を孕んでおり、意思決定を誤らせるリスクがある。


まとめ

  • 推測統計は、標本データから母集団の特性を推論する体系であり、推定と仮説検定の2つの柱からなる
  • 母集団パラメータを正しく推論するには、単純無作為抽出・層化抽出・クラスター抽出などの確率抽出法による偏りのない標本が前提となる
  • 点推定では、不偏性・有効性・一致性を備えた推定量が望ましい。標本平均は母平均の不偏かつ一致推定量である
  • 信頼区間は推定の不確実性を区間で表現する方法であり、母分散が既知ならz区間、未知ならt区間を用いる。標本サイズの増加は信頼区間の幅を狭める
  • 仮説検定は帰無仮説を設定し、p値を用いて棄却するかどうかを判定する手続きである。第一種の過誤($\alpha$)と第二種の過誤($\beta$)はトレードオフの関係にある
  • z検定、t検定(1標本・2標本)、母比率の検定が主要な検定手法である
  • 検出力は帰無仮説が偽であるときにそれを正しく検出する確率であり、事前の検出力分析による適切な標本サイズの設計が重要である
  • 統計的有意性と実際的有意性は区別すべきであり、効果量と信頼区間を併せて報告することが推奨される
  • 多重検定問題とp-hackingは統計的推論の信頼性を損なう重大な問題であり、適切な補正と透明な研究慣行が不可欠である
  • 次のセクション(→ Module 1-2, Section 4「回帰分析と統計的意思決定」参照)では、変数間の関係をモデル化する回帰分析と、統計的推論を経営上の意思決定に結びつける枠組みを学ぶ

用語集(Glossary)

用語 英語表記 定義
母集団 Population 関心の対象となるすべての個体・測定値の集合
標本 Sample 母集団から抽出された部分集合
母集団パラメータ Population Parameter 母集団の特性を表す数値($\mu$, $\sigma^2$, $p$ など)
標本統計量 Sample Statistic 標本から計算される数値($\bar{X}$, $s^2$, $\hat{p}$ など)
点推定 Point Estimation 母集団パラメータの値を1つの数値で推定すること
不偏性 Unbiasedness 推定量の期待値が母集団パラメータに等しい性質
有効性 Efficiency 不偏推定量の中で分散が最小である性質
一致性 Consistency 標本サイズの増大に伴い推定量が真の値に確率収束する性質
信頼区間 Confidence Interval 母集団パラメータが含まれると期待される区間
t分布 Student's t-distribution 母分散未知のときに用いる、正規分布より裾の厚い分布
帰無仮説 Null Hypothesis 「効果がない」「差がない」と主張する仮説($H_0$)
対立仮説 Alternative Hypothesis 帰無仮説に対立する主張($H_1$)
第一種の過誤 Type I Error 真の帰無仮説を誤って棄却する誤り(確率 $\alpha$)
第二種の過誤 Type II Error 偽の帰無仮説を棄却できない誤り(確率 $\beta$)
有意水準 Significance Level 第一種の過誤を許容する上限確率 $\alpha$
p値 p-value 帰無仮説の下で観測データ以上に極端な結果が得られる確率
検出力 Statistical Power 偽の帰無仮説を正しく棄却する確率($1 - \beta$)
効果量 Effect Size 効果の大きさを標準化した指標。標本サイズに依存しない
多重検定問題 Multiple Testing Problem 複数の検定で全体の第一種の過誤率が増大する問題
族有意水準 Family-wise Error Rate (FWER) 複数の検定全体で少なくとも1つの偽陽性が生じる確率

確認問題

Q1: 95%信頼区間の正しい解釈を述べよ。「母平均がこの区間に含まれる確率が95%である」という解釈がなぜ厳密には誤りであるか、頻度論の立場から説明せよ。

A1: 95%信頼区間の正しい解釈は「同じ方法で標本を繰り返し抽出し区間を構成した場合に、100回中約95回はその区間が真の母集団パラメータを含む」である。「母平均がこの区間に含まれる確率が95%」という解釈が誤りである理由は、頻度論の枠組みでは母平均 $\mu$ は未知ではあるが定数であり、確率変数ではないからである。特定のデータから計算された具体的な区間に対して $\mu$ は「含まれている」か「含まれていない」かのどちらかであり、確率を割り当てることができない。確率的に変動するのは区間の方であり、区間の構成法が持つ長期的な性能(被覆率)が95%であるという主張が信頼区間の正しい意味である。

Q2: ある製薬会社が新薬の効果を検証するため、200人の患者を対象にランダム化比較試験を計画している。有意水準5%、検出力80%を目標とする場合、標本サイズは効果量、有意水準、検出力のどのような関係に基づいて決定されるか説明せよ。また、効果量が小さい場合に標本サイズはどう変わるか述べよ。

A2: 標本サイズは「有意水準 $\alpha$(第一種の過誤の許容確率)」「目標検出力 $1 - \beta$(第二種の過誤を犯さない確率)」「効果量(検出したい効果の大きさの標準化指標)」の3つの要因を入力として算出される。有意水準を固定し検出力を一定に保つ場合、効果量が小さいほど、その小さな差を検出するためにはより多くのデータが必要となるため、必要な標本サイズは増大する。これは、小さな効果を標本の変動(ノイズ)から区別するには、標準誤差を十分に小さくする必要があるためである。たとえば Cohen's d = 0.2(小さい効果)を検出するには、d = 0.8(大きい効果)の場合の約16倍の標本サイズが必要となる。

Q3: ECサイトでA/Bテストを実施し、20種類のUIバリエーションのコンバージョン率を同時に比較した結果、1つのバリエーションでp < 0.05が得られた。この結果をそのまま採用することの問題点を、多重検定問題の観点から説明し、適切な対処法を1つ挙げよ。

A3: 20種類のバリエーションを同時に比較するということは20回の仮説検定を行うことに相当し、各検定の有意水準が $\alpha = 0.05$ であっても、少なくとも1つで偽陽性(第一種の過誤)が生じる確率は $1 - (1-0.05)^{20} \approx 0.64$、すなわち約64%に達する。したがって、20回中1回だけp < 0.05が得られたという結果は、帰無仮説が全て正しい場合でも十分に起こり得ることであり、それが真の効果を反映しているとは判断できない。対処法の1つはBonferroni補正であり、各検定の有意水準を $\alpha / m = 0.05 / 20 = 0.0025$ に引き下げて全体の族有意水準を0.05以下に制御する。ただしBonferroni補正は保守的であるため、より検出力の高いHolm法やFDR制御法を用いることも実務上有効である。

Q4: ある企業が全従業員10,000人を対象に研修プログラムの効果を測定したところ、研修前後で業務評価スコアが平均0.3点上昇しており、p < 0.001であった(標準偏差は10点)。この結果について、統計的有意性と実際的有意性の観点からどのように評価すべきか、効果量を計算した上で論じよ。

A4: 効果量として Cohen's d を計算すると $d = 0.3 / 10 = 0.03$ であり、Cohenの基準($d = 0.2$: 小、$d = 0.5$: 中、$d = 0.8$: 大)に照らして極めて小さい効果である。p < 0.001という高度な統計的有意性は、$n = 10{,}000$ という大きな標本サイズによるものであり、実際の効果の大きさを反映していない。標本サイズが大きい場合、実務上無意味なほど小さな差であっても統計的に有意になり得る(標準誤差 $= 10 / \sqrt{10000} = 0.1$ 点なので、0.3点の差は3SEに相当する)。100点満点の業務評価で0.3点の上昇は実務的にほぼ意味のない差であり、研修コストに見合った効果があったとは評価しがたい。このように、p値だけでなく効果量と信頼区間を併せて報告し、結果のビジネス上のインパクトを総合的に判断することが重要である。