Module 1-2 - Section 1: 記述統計¶
セクション情報¶
| 項目 | 内容 |
|---|---|
| モジュール | Module 1-2: 統計学・データ分析基礎 |
| 前提セクション | なし |
| 想定学習時間 | 2.5時間 |
導入¶
経営上の意思決定においてデータに基づく判断がますます重要になっている。企業活動は売上高、利益率、顧客満足度、従業員の離職率など多様なデータを生み出すが、これらを効果的に活用するにはデータを整理・要約し、本質的な特徴を抽出する技術が不可欠である。
記述統計(descriptive statistics)は、収集されたデータの特徴を数値的・視覚的に要約する統計学の一分野である。推測統計(→ Module 1-2, Section 3「推測統計」参照)がサンプルから母集団の性質を推定するのに対し、記述統計は手元にあるデータそのものの記述と要約に焦点を当てる。本セクションでは、データの種類と尺度水準から始め、代表値(中心傾向)、散布度(ばらつき)、分布の形状、二変量の関連性の指標、そして標準化の手法までを扱う。
データの種類と尺度水準¶
データ分析の第一歩は、扱うデータがどのような性質を持つかを正しく把握することである。データの性質によって適用可能な統計手法が異なるため、この区分は極めて重要である。
Key Concept: 尺度水準(Scales of Measurement) 心理学者 Stanley Smith Stevens(1946)が提唱した、データの測定レベルを4段階に分類する枠組み。名義尺度・順序尺度・間隔尺度・比率尺度の4水準があり、水準が高いほど適用可能な統計的操作が多くなる。
質的データと量的データ¶
データは大きく質的データ(qualitative data)と量的データ(quantitative data)に分類される。
質的データはカテゴリや属性を表すデータであり、数値的な演算(加減乗除)が意味を持たない。以下の2つの尺度水準に対応する。
- 名義尺度(nominal scale): 分類や識別のみを目的とする尺度。カテゴリ間に順序関係はない。例として、業種(製造業・サービス業・金融業)、性別、商品の型番がある。適用可能な統計量は最頻値と度数のみであり、平均値の計算は無意味である。
- 順序尺度(ordinal scale): カテゴリ間に順序(大小関係)が存在するが、その間隔が等しいとは限らない。例として、顧客満足度(非常に不満・不満・普通・満足・非常に満足)、企業の信用格付け(AAA, AA, A, BBB, ...)がある。中央値や四分位数の計算が可能だが、平均値の解釈には注意を要する。
量的データは数量を表し、数値的な演算が可能なデータである。
- 間隔尺度(interval scale): 目盛りの間隔が等しく、差の演算が意味を持つが、絶対的な原点(真のゼロ)を持たない。温度(摂氏・華氏)が典型例である。ビジネスにおいては、暦年や特定の基準年からの偏差などがこれに該当する。平均値・標準偏差の計算が可能だが、「2倍」「3倍」といった比率の解釈は適切でない。
- 比率尺度(ratio scale): 等間隔の目盛りに加えて絶対的な原点(ゼロ = 「存在しない」)を持つ。売上高、利益、従業員数、生産量、重量など、経営データの多くがこの尺度に該当する。すべての統計的演算(平均、標準偏差、比率計算)が可能である。
graph TD
A["データの種類"] --> B["質的データ"]
A --> C["量的データ"]
B --> D["名義尺度"]
B --> E["順序尺度"]
C --> F["間隔尺度"]
C --> G["比率尺度"]
D --> D1["例: 業種, 性別"]
E --> E1["例: 満足度, 格付け"]
F --> F1["例: 温度, 暦年"]
G --> G1["例: 売上高, 従業員数"]
| 尺度水準 | 等値判定 | 順序 | 等間隔 | 原点 | 適用可能な代表値 |
|---|---|---|---|---|---|
| 名義尺度 | 可 | 不可 | 不可 | なし | 最頻値 |
| 順序尺度 | 可 | 可 | 不可 | なし | 最頻値, 中央値 |
| 間隔尺度 | 可 | 可 | 可 | なし | 最頻値, 中央値, 平均値 |
| 比率尺度 | 可 | 可 | 可 | あり | 最頻値, 中央値, 平均値, 幾何平均 |
代表値(中心傾向の指標)¶
データの分布を1つの値で要約するための指標を代表値(measures of central tendency)と呼ぶ。データの「典型的な値」を示すものであり、目的やデータの性質に応じて使い分ける必要がある。
算術平均¶
Key Concept: 平均値(Mean / Arithmetic Mean) n個のデータ $x_1, x_2, \ldots, x_n$ の総和をデータ数nで割った値。$\bar{x} = \frac{1}{n}\sum_{i=1}^{n} x_i$ で定義される。最も広く使われる代表値だが、外れ値の影響を受けやすい。
算術平均(arithmetic mean)は、すべてのデータ値を等しく重み付けして計算される。間隔尺度以上のデータに適用可能であり、経営データの分析で最も頻繁に使用される指標である。
計算例: ある小売チェーンの5店舗の月間売上高(万円)が 800, 950, 1100, 870, 1030 であるとき、算術平均は $(800 + 950 + 1100 + 870 + 1030) / 5 = 950$ 万円である。
算術平均の重要な性質として、偏差(各データ値と平均値の差)の合計がゼロになること、および二乗偏差の合計を最小化する値であることが挙げられる。
中央値¶
Key Concept: 中央値(Median) データを昇順に並べたとき、ちょうど中央に位置する値。データ数が偶数の場合は中央の2つの値の平均をとる。外れ値の影響を受けにくいロバスト(頑健)な指標である。
中央値は順序尺度以上のデータに適用可能であり、分布が歪んでいる場合や外れ値が存在する場合に平均値よりも「典型的な値」をよく表す。
外れ値の影響の例: 5名の従業員の年収(万円)が 400, 420, 450, 470, 2000 の場合、算術平均は 748 万円だが、中央値は 450 万円である。この例では1名の高所得者が平均を大きく引き上げており、中央値の方が「典型的な年収」を適切に表現している。企業の年収中央値が報道で用いられるのはこのためである。
最頻値¶
最頻値(mode)はデータ中で最も頻繁に出現する値であり、名義尺度以上のすべてのデータに適用可能な唯一の代表値である。量的データにおいては、データをいくつかの階級(ビン)に分割したうえで、最も度数が高い階級の値として求めることが一般的である。マーケティングにおける最多購買価格帯の特定などに活用される。
加重平均¶
Key Concept: 加重平均(Weighted Mean) 各データに重み(ウエイト)$w_i$ を付与して計算する平均。$\bar{x}w = \frac{\sum{i=1}^{n} w_i x_i}{\sum_{i=1}^{n} w_i}$ で定義される。データの重要度や頻度が異なる場合に使用する。
たとえば、3つの工場の製品不良率がそれぞれ 2%, 3%, 5% で、生産量が 10,000個、5,000個、2,000個の場合、単純平均 $(2+3+5)/3 = 3.33\%$ よりも、加重平均 $(0.02 \times 10000 + 0.03 \times 5000 + 0.05 \times 2000) / 17000 = 2.65\%$ の方が全社の実態を正確に反映する。株価指数(日経平均は株価の単純平均型、TOPIXは時価総額加重型)も加重平均の概念に基づいている。
幾何平均¶
Key Concept: 幾何平均(Geometric Mean) n個の正のデータの積のn乗根。$\bar{x}G = \left(\prod{i=1}^{n} x_i\right)^{1/n}$ で定義される。成長率や変化率など、比率データの平均に適する。
幾何平均は、年平均成長率(CAGR: Compound Annual Growth Rate)の計算に不可欠である。ある企業の3年間の売上成長率が +10%, +20%, -5%(すなわち倍率 1.10, 1.20, 0.95)の場合、算術平均の成長率は $(10+20-5)/3 = 8.33\%$ だが、幾何平均の成長率は $(1.10 \times 1.20 \times 0.95)^{1/3} - 1 \approx 7.89\%$ である。複利効果を考慮する場面では幾何平均が正確であり、投資リターンの評価にも広く使われる。
散布度(ばらつきの指標)¶
代表値だけではデータの全体像を捉えられない。同じ平均値であっても、データが密集しているか広く散らばっているかで意味合いは大きく異なる。散布度(measures of dispersion / variability)はデータのばらつきの程度を数値化する指標である。
範囲と四分位範囲¶
範囲(range) は最大値と最小値の差であり、計算が最も単純なばらつきの指標である。しかし、外れ値が1つでもあれば大きく影響を受けるため、データの実質的なばらつきを反映しにくい。
四分位範囲(IQR: Interquartile Range) は第3四分位数(Q3, 75パーセンタイル)から第1四分位数(Q1, 25パーセンタイル)を引いた値であり、データの中央50%が占める範囲を表す。外れ値の影響を受けにくく、中央値と組み合わせて使用されることが多い。
分散と標準偏差¶
Key Concept: 分散(Variance) 各データの偏差(平均からの差)の二乗の平均値。母分散は $\sigma^2 = \frac{1}{N}\sum_{i=1}^{N}(x_i - \mu)^2$、標本分散は $s^2 = \frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})^2$ で定義される。標本分散の分母が $n-1$(自由度)であるのは、不偏推定量とするためである。
Key Concept: 標準偏差(Standard Deviation) 分散の正の平方根。母標準偏差は $\sigma$、標本標準偏差は $s$ で表記する。分散と異なり、元のデータと同じ単位を持つため、解釈が容易である。
分散はばらつきの指標として理論的に重要な性質を多く持つが、単位が元データの二乗になるという欠点がある。標準偏差はこの問題を解消し、実務上最も広く使われる散布度指標である。
計算例: 5店舗の月間売上高(万円)800, 950, 1100, 870, 1030 の場合、平均 $\bar{x} = 950$。
| 店舗 | $x_i$ | $x_i - \bar{x}$ | $(x_i - \bar{x})^2$ |
|---|---|---|---|
| A | 800 | -150 | 22,500 |
| B | 950 | 0 | 0 |
| C | 1100 | 150 | 22,500 |
| D | 870 | -80 | 6,400 |
| E | 1030 | 80 | 6,400 |
| 合計 | 57,800 |
標本分散 $s^2 = 57800 / (5-1) = 14450$、標本標準偏差 $s = \sqrt{14450} \approx 120.2$ 万円。
金融分野では株式リターンの標準偏差がリスク指標として使用される。標準偏差が大きい銘柄はリターンの振れ幅が大きく、ハイリスク・ハイリターンであると解釈される。
変動係数¶
変動係数(CV: Coefficient of Variation)は標準偏差を平均値で割った値であり、$CV = s / \bar{x}$ で定義される(百分率表記では $\times 100$)。単位の異なるデータ間や平均値の大きく異なるデータ間でばらつきの程度を比較する際に有用である。
たとえば、年間売上高の平均が100億円で標準偏差が10億円の大企業と、平均1億円で標準偏差が5,000万円の中小企業では、標準偏差だけを見れば大企業のばらつきが大きいが、変動係数ではそれぞれ 10% と 50% となり、中小企業の方が相対的なばらつきが大きいことがわかる。
データの可視化¶
数値的な要約だけではデータの分布やパターンを直観的に把握しにくい。可視化はデータの構造を発見し、分析結果を効果的に伝達する手段として極めて重要である。
ヒストグラム¶
ヒストグラム(histogram)は量的データの度数分布を視覚化するグラフであり、横軸にデータの階級(ビン)、縦軸に度数をとった柱状図である。データの分布の形状(対称性、裾の広がり、ピークの数)を直観的に把握できる。階級幅の設定が分布の見え方に大きく影響するため、適切な設定が重要である。Sturgesの公式 $k = 1 + \log_2 n$(kは階級数、nはデータ数)が目安として用いられる。
箱ひげ図¶
箱ひげ図(box plot / box-and-whisker plot)は、最小値・Q1・中央値・Q3・最大値の5数要約(five-number summary)を視覚化するグラフである。IQRの1.5倍を超える値を外れ値として個別にプロットすることで、外れ値の検出にも有用である。複数のグループを並べて比較する場合(例: 部門別の利益率の分布比較)に特に効果的である。
散布図¶
散布図(scatter plot)は2つの量的変数の関係を視覚化するグラフであり、各データ点を2次元平面上にプロットする。変数間の関連の方向(正・負)、強さ、線形性の有無を視覚的に評価できる。外れ値や群の構造(クラスタリング)の発見にも役立つ。
分布の形状¶
データの分布を記述する際、中心(代表値)とばらつき(散布度)に加えて、分布の対称性と裾の重さに関する指標が有用である。
歪度¶
歪度(skewness)は分布の非対称性を表す指標であり、3次のモーメントに基づいて定義される。
$$\text{skewness} = \frac{\frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^3}{s^3}$$
- 歪度 = 0: 左右対称な分布(正規分布など)
- 歪度 > 0(正の歪み): 右側に長い裾を持つ分布。所得分布や企業規模の分布が典型例であり、平均値が中央値より大きくなる
- 歪度 < 0(負の歪み): 左側に長い裾を持つ分布。試験成績が高得点に集中する場合などが該当し、平均値が中央値より小さくなる
正の歪みを持つ分布では、中央値が代表値として平均値よりも適切である場合が多い。
尖度¶
尖度(kurtosis)は分布の裾の重さ(尖り具合)を表す指標であり、4次のモーメントに基づいて定義される。正規分布の尖度を基準(=3)とし、そこからの超過として表す超過尖度(excess kurtosis = kurtosis - 3)が実務ではよく用いられる。
- 超過尖度 = 0: 正規分布と同程度の裾の重さ(正規尖; mesokurtic)
- 超過尖度 > 0: 正規分布より裾が重く尖った分布(尖鋭尖; leptokurtic)。株価リターンの分布がこれに該当し、極端な値(暴落・急騰)が正規分布の予測より高い頻度で出現することを意味する
- 超過尖度 < 0: 正規分布より裾が軽く平坦な分布(扁平尖; platykurtic)。一様分布が極端な例である
金融リスク管理では、株価リターンの分布が正の超過尖度を持つこと(いわゆるファットテール / fat tail)が重要な実務的含意を持つ。正規分布を前提としたリスク評価は、テールリスクを過小評価する可能性がある。
二変量の関連¶
経営分析では、2つの変数の間にどのような関連があるかを把握することが重要である。広告費と売上高、従業員満足度と離職率など、変数間の関連を定量的に評価する指標として共分散と相関係数がある。
共分散¶
Key Concept: 共分散(Covariance) 2つの変数の偏差の積の平均値。$\text{Cov}(X, Y) = \frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})$ で定義される(標本共分散)。正の値は同方向の変動、負の値は逆方向の変動を示す。
共分散は2変数の関連の方向(正・負)を示すが、値の大きさがデータの単位に依存するため、関連の強さを直接的に評価しにくいという欠点がある。この問題を解消するのが相関係数である。
ピアソンの積率相関係数¶
Key Concept: 相関係数(Correlation Coefficient) 共分散を両変数の標準偏差の積で割って標準化した値。$r = \frac{\text{Cov}(X,Y)}{s_X \cdot s_Y}$ で定義され、$-1 \leq r \leq 1$ の範囲をとる。変数間の線形関連の強さと方向を示す無次元量である。
ピアソンの積率相関係数(Pearson's product-moment correlation coefficient)は、2つの量的変数間の線形的な関連の強さを測る最も基本的な指標である。
| 相関係数の値 | 解釈 |
|---|---|
| $r = 1$ | 完全な正の線形相関 |
| $0.7 \leq r < 1$ | 強い正の相関 |
| $0.4 \leq r < 0.7$ | 中程度の正の相関 |
| $0.2 \leq r < 0.4$ | 弱い正の相関 |
| $-0.2 < r < 0.2$ | ほぼ無相関 |
| $r = -1$ | 完全な負の線形相関 |
計算例: ある企業の5つの地域における広告費(百万円)と売上高(億円)のデータから相関係数を求める。
| 地域 | 広告費 $x$ | 売上高 $y$ |
|---|---|---|
| A | 10 | 5 |
| B | 15 | 8 |
| C | 20 | 9 |
| D | 25 | 12 |
| E | 30 | 14 |
$\bar{x} = 20, \bar{y} = 9.6$
$\text{Cov}(X,Y) = \frac{(10-20)(5-9.6) + (15-20)(8-9.6) + (20-20)(9-9.6) + (25-20)(12-9.6) + (30-20)(14-9.6)}{4} = \frac{46+8+0+12+44}{4} = 27.5$
$s_X = \sqrt{\frac{100+25+0+25+100}{4}} = \sqrt{62.5} \approx 7.91$
$s_Y = \sqrt{\frac{21.16+2.56+0.36+5.76+19.36}{4}} = \sqrt{12.30} \approx 3.51$
$r = \frac{27.5}{7.91 \times 3.51} \approx 0.99$
この結果は広告費と売上高の間に非常に強い正の線形関連があることを示している。
相関と因果の区別¶
相関係数は変数間の統計的な関連の強さを示すが、因果関係を証明するものではない。これは統計学における最も重要な原則の一つである。
- 疑似相関(spurious correlation): 第三の変数(交絡変数)が2つの変数の双方に影響を与えている場合、見かけ上の相関が生じる。例として、アイスクリームの売上と水難事故件数は正の相関を示すが、これは気温という交絡変数による見かけの関連である。
- 逆因果: 因果の方向が想定と逆である可能性。「広告費が売上を増やす」のではなく「売上の多い企業が広告費をかけられる」可能性。
- 因果関係の検証: 因果関係の推定には、ランダム化比較実験(RCT)、操作変数法、差分の差分法などの手法が必要であり、単なる相関分析では不十分である。
標準化¶
Key Concept: 標準化 / zスコア(Standardization / z-score) 各データ値から平均を引き、標準偏差で割ることで、平均0・標準偏差1の尺度に変換する操作。$z_i = \frac{x_i - \bar{x}}{s}$ で定義される。異なる単位や尺度のデータを共通の基準で比較可能にする。
標準化により、元のデータは平均 $\bar{x} = 0$、標準偏差 $s = 1$ のzスコアに変換される。zスコアの絶対値は、そのデータ値が平均から何標準偏差分離れているかを表す。
活用例: ある学生のTOEICスコアが 750点(平均 600点、標準偏差 100点)、簿記試験の得点が 80点(平均 65点、標準偏差 10点)のとき、両者のzスコアはそれぞれ $(750-600)/100 = 1.5$、$(80-65)/10 = 1.5$ であり、両試験において同程度に平均を上回る成績であることがわかる。
経営分析では、売上高、利益率、従業員数など単位や桁数が大きく異なる変数を同時に分析する場合にzスコアへの変換が頻繁に行われる。クラスター分析や主成分分析などの多変量解析では、標準化が前処理としてほぼ必須である。
記述統計の指標体系¶
以下に、本セクションで扱った記述統計の主要指標を体系的に整理する。
graph TD
A["記述統計の指標"] --> B["中心傾向"]
A --> C["散布度"]
A --> D["分布の形状"]
A --> E["二変量の関連"]
B --> B1["算術平均"]
B --> B2["中央値"]
B --> B3["最頻値"]
B --> B4["加重平均"]
B --> B5["幾何平均"]
C --> C1["範囲"]
C --> C2["四分位範囲 IQR"]
C --> C3["分散"]
C --> C4["標準偏差"]
C --> C5["変動係数"]
D --> D1["歪度"]
D --> D2["尖度"]
E --> E1["共分散"]
E --> E2["相関係数"]
まとめ¶
- データは質的データ(名義尺度・順序尺度)と量的データ(間隔尺度・比率尺度)に分類され、尺度水準に応じて適用可能な統計手法が異なる
- 代表値には算術平均、中央値、最頻値、加重平均、幾何平均があり、データの性質や分析目的に応じて使い分ける。外れ値が存在する場合は中央値、成長率の平均には幾何平均が適する
- 散布度の指標として範囲、四分位範囲、分散、標準偏差、変動係数があり、データのばらつきの程度を定量化する。標準偏差はリスク指標としても利用される
- 分布の形状は歪度(対称性)と尖度(裾の重さ)で記述される。正の歪みでは中央値が代表値として適切であり、ファットテールは金融リスク管理上重要な含意を持つ
- 共分散と相関係数は二変量の線形的関連を測定するが、相関は因果を意味しない
- 標準化(zスコア)により、異なる単位・尺度のデータを共通基準で比較可能になる
- 次のセクション(→ Module 1-2, Section 2「確率と確率分布」参照)では、記述統計で得た知見を確率論の枠組みで一般化し、推測統計の基礎を築く
用語集(Glossary)¶
| 用語 | 英語表記 | 定義 |
|---|---|---|
| 記述統計 | Descriptive Statistics | 収集されたデータの特徴を数値的・視覚的に要約する統計学の一分野 |
| 尺度水準 | Scales of Measurement | データの測定レベルを4段階(名義・順序・間隔・比率)に分類する枠組み |
| 名義尺度 | Nominal Scale | 分類・識別のみを目的とする尺度。順序関係なし |
| 順序尺度 | Ordinal Scale | カテゴリ間に順序があるが、間隔が等しいとは限らない尺度 |
| 間隔尺度 | Interval Scale | 等間隔の目盛りを持つが、絶対的原点を持たない尺度 |
| 比率尺度 | Ratio Scale | 等間隔の目盛りと絶対的原点を持つ尺度 |
| 平均値 | Mean / Arithmetic Mean | データの総和をデータ数で割った値 |
| 中央値 | Median | データを昇順に並べたとき中央に位置する値 |
| 最頻値 | Mode | データ中で最も頻繁に出現する値 |
| 加重平均 | Weighted Mean | 各データに重みを付与して計算する平均 |
| 幾何平均 | Geometric Mean | データの積のn乗根。成長率の平均に適する |
| 分散 | Variance | 偏差の二乗の平均値。ばらつきの基本指標 |
| 標準偏差 | Standard Deviation | 分散の正の平方根。元データと同じ単位を持つ |
| 変動係数 | Coefficient of Variation | 標準偏差を平均値で割った値。無次元のばらつき指標 |
| 四分位範囲 | Interquartile Range (IQR) | Q3とQ1の差。中央50%のデータが占める範囲 |
| 歪度 | Skewness | 分布の非対称性を表す指標。3次モーメントに基づく |
| 尖度 | Kurtosis | 分布の裾の重さを表す指標。4次モーメントに基づく |
| 共分散 | Covariance | 2変数の偏差の積の平均値。関連の方向を示す |
| 相関係数 | Correlation Coefficient | 共分散を標準偏差の積で割った無次元量。線形関連の強さと方向を示す |
| 標準化 | Standardization | データを平均0・標準偏差1に変換する操作 |
| zスコア | z-score | 標準化後の値。平均からの標準偏差単位での距離 |
確認問題¶
Q1: 名義尺度・順序尺度・間隔尺度・比率尺度それぞれについて、経営データの具体例を1つずつ挙げ、その尺度水準で適用可能な代表値を説明せよ。
A1: 名義尺度: 業種分類(製造業・サービス業等)→ 最頻値のみ適用可能。順序尺度: 顧客満足度の5段階評価 → 最頻値と中央値が適用可能。間隔尺度: 設立年 → 最頻値、中央値、平均値が適用可能だが、「2倍の年」という比率は無意味。比率尺度: 年間売上高 → すべての代表値(最頻値、中央値、平均値、幾何平均)が適用可能であり、「売上が2倍」という比率表現も意味を持つ。
Q2: ある部門の10名の月給(万円)が 25, 27, 28, 28, 30, 30, 31, 32, 35, 80 であるとき、算術平均と中央値をそれぞれ求め、どちらがこの部門の「典型的な月給」をよりよく表しているか、理由とともに述べよ。
A2: 算術平均 = $(25+27+28+28+30+30+31+32+35+80)/10 = 34.6$ 万円。中央値 = $(30+30)/2 = 30$ 万円。この場合、80万円という外れ値(おそらく管理職)が平均を引き上げている。残り9名の月給は25〜35万円に集中しており、中央値30万円の方が「典型的な月給」をより適切に表している。正に歪んだ分布では、中央値が代表値として優れている。
Q3: 共分散が正の値を示す2変数が存在するとき、それらの間に因果関係があると結論づけられるか。結論づけられない場合、その理由と、因果関係を検証するために必要なアプローチを述べよ。
A3: 因果関係があるとは結論づけられない。理由は以下の通り。第一に、共分散(および相関係数)が示すのは変数間の統計的な共変動であり、因果のメカニズムは含まれていない。第二に、交絡変数(第三の変数)が両変数に影響して見かけ上の相関(疑似相関)を生じさせている可能性がある。第三に、因果の方向が想定と逆(逆因果)である可能性もある。因果関係の検証にはランダム化比較実験(RCT)が最も強力であり、それが困難な場合は操作変数法、差分の差分法、回帰不連続デザインなどの準実験的手法を用いる必要がある。
Q4: 企業Aの過去5年間の年間売上成長率が +15%, +8%, -3%, +20%, +5% であった。この期間の年平均成長率を算術平均と幾何平均でそれぞれ求め、どちらが適切か理由とともに説明せよ。
A4: 算術平均 = $(15+8-3+20+5)/5 = 9.0\%$。幾何平均 = $(1.15 \times 1.08 \times 0.97 \times 1.20 \times 1.05)^{1/5} - 1$。積 $= 1.15 \times 1.08 \times 0.97 \times 1.20 \times 1.05 \approx 1.5175$。$1.5175^{1/5} \approx 1.0871$。年平均成長率 $\approx 8.71\%$。幾何平均が適切である。理由は、成長率は累積的に作用する(複利効果)ため、算術平均では実際の成長を過大評価する。幾何平均は「この率で5年間一定成長した場合に同じ最終結果を得る率」を正確に表す。
Q5: 変動係数(CV)はどのような場面で標準偏差よりも有用な指標となるか、具体的な経営場面の例を挙げて説明せよ。
A5: 変動係数は、平均値の水準が大きく異なるデータ群間でばらつきの程度を比較する場面で有用である。例えば、大企業(年間売上高平均1000億円、標準偏差100億円)と中小企業(年間売上高平均10億円、標準偏差3億円)の売上安定性を比較する場合、標準偏差だけでは大企業のばらつきが大きく見えるが、変動係数ではそれぞれ10%と30%となり、中小企業の方が相対的に不安定であることがわかる。同様に、異なる通貨単位の売上データを比較する場合や、異なる業種の利益率のばらつきを比較する場合にも、変動係数が適切な指標となる。