Module 1-2 - Section 4: 回帰分析と統計的意思決定¶
セクション情報¶
| 項目 | 内容 |
|---|---|
| モジュール | Module 1-2: 統計学・データ分析基礎 |
| 前提セクション | Section 1, Section 3 |
| 想定学習時間 | 3時間 |
導入¶
Section 1(→ Module 1-2, Section 1「記述統計」参照)では、2つの量的変数の関連性を測る指標として共分散と相関係数を学んだ。相関係数は変数間の線形関係の強さと方向を示す指標であるが、一方の変数の値から他方の変数の値を予測したり、変数間の関係を数学的にモデル化したりすることはできない。
本セクションでは、相関分析を発展させ、変数間の関係を数式で表現する回帰分析(regression analysis)を扱う。回帰分析は、ある変数(説明変数)の値から別の変数(目的変数)の値を予測・説明するための統計的手法であり、経営の現場では売上予測、需要分析、価格設定、リスク評価など極めて広範に応用される。
さらに、Section 3(→ Module 1-2, Section 3「推測統計」参照)で学んだ推測統計の枠組み(仮説検定、信頼区間)を回帰係数に適用することで、回帰分析の結果を統計的に評価する方法を学ぶ。本セクションはModule 1-2の最終セクションであり、記述統計・確率・推測統計の知識を統合して、データに基づく経営意思決定の実践的手法を体系化する。
単回帰分析¶
回帰分析の基本構造¶
Key Concept: 回帰分析(Regression Analysis) 1つ以上の説明変数(independent variable / explanatory variable)と目的変数(dependent variable / response variable)の関係を数学的モデルで表現し、説明変数の値から目的変数の値を予測・説明する統計的手法。説明変数が1つの場合を単回帰分析、2つ以上の場合を重回帰分析と呼ぶ。
回帰分析では、変数間の関係を以下の線形モデルで表現する。
$$Y = \beta_0 + \beta_1 X + \varepsilon$$
ここで、$Y$ は目的変数、$X$ は説明変数、$\beta_0$ は切片(intercept)、$\beta_1$ は回帰係数(regression coefficient)/ 傾き(slope)、$\varepsilon$ は誤差項(error term)である。
Key Concept: 回帰係数(Regression Coefficient) 説明変数が1単位変化したときに目的変数が平均的にどれだけ変化するかを表す値。単回帰モデル $Y = \beta_0 + \beta_1 X + \varepsilon$ において、$\beta_1$ が回帰係数であり、$\beta_1 = 0.5$ であれば「$X$ が1単位増加すると $Y$ は平均的に0.5単位増加する」と解釈する。
具体例: 月間広告費(万円)を $X$、月間売上高(万円)を $Y$ とするモデルを考える。$Y = 200 + 3.5X + \varepsilon$ という関係が推定されたとすると、切片200は広告費がゼロのときの期待売上高、傾き3.5は広告費を1万円増やすごとに売上高が平均3.5万円増加することを意味する。
最小二乗法(OLS)¶
Key Concept: 最小二乗法(Ordinary Least Squares / OLS) 回帰係数を推定する最も基本的な方法。観測値 $y_i$ と回帰直線上の予測値 $\hat{y}i$ の差(残差)の二乗和 $\sum{i=1}^{n}(y_i - \hat{y}_i)^2$ を最小化するように回帰係数を決定する。
OLSによる回帰係数の推定値は、以下の式で計算される。
$$\hat{\beta}1 = \frac{\sum{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n}(x_i - \bar{x})^2} = \frac{S_{XY}}{S_{XX}}$$
$$\hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \bar{x}$$
$\hat{\beta}_1$ の分子は $X$ と $Y$ の共分散に比例する量(偏差積和)であり、分母は $X$ の分散に比例する量(偏差二乗和)である。Section 1で学んだ相関係数 $r$ と回帰係数の間には $\hat{\beta}_1 = r \cdot \frac{s_Y}{s_X}$ という関係がある。相関係数が変数間の関連の強さを標準化して示すのに対し、回帰係数は元の単位での変化量を示す点が異なる。
切片 $\hat{\beta}_0$ は、回帰直線が必ず点 $(\bar{x}, \bar{y})$ を通ることを保証する。すなわち、$X$ の平均値を代入すれば $Y$ の平均値が予測される。
計算例: あるECサイトの月次データ(6か月分)として、広告費 $X$(万円)= {100, 150, 200, 250, 300, 350}、売上高 $Y$(万円)= {500, 590, 650, 740, 800, 870} が得られたとする。$\bar{x} = 225$, $\bar{y} = 691.7$, $S_{XY} = 55000$, $S_{XX} = 43750$ より、$\hat{\beta}_1 = 55000 / 43750 \approx 1.257$, $\hat{\beta}_0 = 691.7 - 1.257 \times 225 \approx 408.8$ となる。回帰式は $\hat{Y} = 408.8 + 1.257X$ であり、広告費1万円の追加投入あたり売上高が約1.26万円増加するという関係が推定される。
回帰モデルの仮定¶
OLSによる推定が望ましい統計的性質(不偏性、有効性)を持つためには、以下の仮定(ガウス=マルコフの仮定)が満たされる必要がある。
| 仮定 | 内容 | 違反した場合の問題 |
|---|---|---|
| 線形性(linearity) | $Y$ と $X$ の関係が線形である | 推定にバイアスが生じる |
| 誤差の期待値ゼロ | $E[\varepsilon_i] = 0$ | 切片の推定にバイアスが生じる |
| 等分散性(homoscedasticity) | $Var(\varepsilon_i) = \sigma^2$(一定) | 推定値は不偏だが効率的でなくなり、標準誤差の推定が不正確になる |
| 独立性(independence) | 誤差項同士が無相関 | 標準誤差の推定が不正確になる |
| 正規性(normality) | 誤差項が正規分布に従う | 小標本でのt検定・F検定の妥当性が損なわれる |
これらの仮定のうち、線形性と誤差の期待値ゼロはOLS推定量の不偏性に必要であり、等分散性と独立性はOLS推定量の有効性(最小分散性)に必要である。正規性は、推測統計(t検定、F検定)を適用するための追加的な仮定である。ただし、標本サイズが十分に大きい場合は中心極限定理により正規性の仮定がなくても近似的に検定が有効となる。
これらの仮定が満たされるとき、ガウス=マルコフの定理(Gauss-Markov theorem)により、OLS推定量は線形不偏推定量の中で最小の分散を持つ(BLUE: Best Linear Unbiased Estimator)ことが保証される。
決定係数¶
決定係数(R²)の定義と解釈¶
Key Concept: 決定係数(Coefficient of Determination / R²) 目的変数の全変動のうち、回帰モデルによって説明される変動の割合。0から1の値をとり、1に近いほどモデルの当てはまりがよいことを示す。単回帰分析では、相関係数 $r$ の二乗に等しい。
決定係数は、目的変数の変動を分解することで定義される。
$$\text{総変動 (SST)} = \sum_{i=1}^{n}(y_i - \bar{y})^2$$
$$\text{回帰変動 (SSR)} = \sum_{i=1}^{n}(\hat{y}_i - \bar{y})^2$$
$$\text{残差変動 (SSE)} = \sum_{i=1}^{n}(y_i - \hat{y}_i)^2$$
これらの間には $SST = SSR + SSE$ という関係が成り立ち、決定係数は以下で定義される。
$$R^2 = \frac{SSR}{SST} = 1 - \frac{SSE}{SST}$$
$R^2 = 0.75$ であれば、目的変数の変動の75%が回帰モデル(説明変数)によって説明されることを意味する。先の広告費と売上高の例では、売上高のばらつきの75%が広告費の違いで説明でき、残り25%は広告費以外の要因や偶然の変動であると解釈される。
R²の限界¶
R²には以下の限界がある点に注意が必要である。
- 説明変数を追加すると必ずR²は増加(または維持)する: 説明力のない変数を追加しても、R²は減少しない。したがって、R²のみでモデルの良さを評価すると、不要な変数を含む過剰適合(overfitting)のモデルを選択してしまう危険がある。
- 因果関係を示さない: R²が高くても、それは説明変数と目的変数の間に因果関係があることを意味しない。見かけ上の相関(疑似相関)や交絡因子の存在により、因果関係がなくてもR²が高い値を示す場合がある。
- 分野によって「良い」R²の値は異なる: 物理実験のように条件統制が可能な場面ではR²が0.99以上になることもあるが、人間の行動を対象とするマーケティング研究ではR²が0.3〜0.5程度でも十分に意味のあるモデルと評価されることがある。
回帰係数の推測統計¶
Section 3で学んだ推測統計の枠組みを回帰分析に適用する。標本データから推定された回帰係数 $\hat{\beta}_1$ は、母集団における真の回帰係数 $\beta_1$ の推定値であり、標本ごとに異なる値をとる確率変数である。
回帰係数のt検定¶
回帰係数の有意性検定では、帰無仮説 $H_0: \beta_1 = 0$(説明変数は目的変数に影響を与えない)を検定する。
検定統計量は以下のt統計量である。
$$t = \frac{\hat{\beta}_1}{SE(\hat{\beta}_1)}$$
ここで、$SE(\hat{\beta}1)$ は回帰係数の標準誤差であり、$SE(\hat{\beta}_1) = \frac{s_e}{\sqrt{S{XX}}}$($s_e$ は残差の標準誤差)で計算される。この検定統計量は自由度 $n - 2$ のt分布に従う。
p値が有意水準(通常0.05)より小さければ帰無仮説を棄却し、説明変数は目的変数に統計的に有意な影響を持つと結論する。ただし、Section 3で学んだとおり、統計的有意性と実際的有意性(効果の大きさ)は区別する必要がある。
回帰係数の信頼区間¶
母集団の回帰係数 $\beta_1$ の95%信頼区間は以下で計算される。
$$\hat{\beta}1 \pm t{\alpha/2, n-2} \cdot SE(\hat{\beta}_1)$$
この区間にゼロが含まれない場合、5%有意水準でのt検定で帰無仮説が棄却されることと同値である。信頼区間は、回帰係数の点推定値だけでなく推定の精度(不確実性の幅)を示すため、点推定値とあわせて報告することが推奨される。
モデル全体のF検定¶
個々の回帰係数のt検定に対し、モデル全体の有意性を検定するのがF検定である。単回帰の場合、F検定はt検定と同値であるが、重回帰分析では複数の説明変数を同時に検定する役割を持つ。
$$F = \frac{SSR / k}{SSE / (n - k - 1)} = \frac{MSR}{MSE}$$
ここで、$k$ は説明変数の数、$MSR$ は回帰平均平方、$MSE$ は残差平均平方である。帰無仮説は「すべての回帰係数がゼロ($\beta_1 = \beta_2 = \cdots = \beta_k = 0$)」であり、この検定が有意でなければ、モデル全体として説明変数が目的変数を説明していないと判断される。
重回帰分析¶
複数の説明変数¶
Key Concept: 重回帰分析(Multiple Regression Analysis) 2つ以上の説明変数を用いて目的変数との関係をモデル化する回帰分析。モデルは $Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \cdots + \beta_k X_k + \varepsilon$ の形で表される。各回帰係数は、他の説明変数の影響を制御した上での、当該説明変数の効果を表す。
ビジネスにおいて目的変数に影響する要因は通常複数存在する。たとえば、売上高は広告費だけでなく、価格設定、季節、立地条件、競合状況など多数の要因に依存する。重回帰分析は、これら複数の要因の影響を同時に考慮し、各要因の独立した効果を分離・推定することを可能にする。
偏回帰係数の解釈¶
重回帰分析における各回帰係数を偏回帰係数(partial regression coefficient)と呼ぶ。偏回帰係数 $\hat{\beta}_j$ は、「他のすべての説明変数を一定に保ったときに、$X_j$ が1単位変化した場合の $Y$ の平均的な変化量」を表す。この「他の変数を制御した効果」という解釈が、重回帰分析の最大の強みである。
具体例: ある小売チェーンの売上高を予測するモデルとして、
$$\hat{Y} = 120 + 2.8X_1 - 15.3X_2 + 0.04X_3$$
が推定されたとする。ここで $X_1$ は広告費(万円)、$X_2$ は自社商品の平均価格(千円)、$X_3$ は最寄り駅の一日乗降客数(人)である。
- $\hat{\beta}_1 = 2.8$: 価格と乗降客数を一定に保ったとき、広告費を1万円増やすと売上高は平均2.8万円増加する
- $\hat{\beta}_2 = -15.3$: 広告費と乗降客数を一定に保ったとき、平均価格が1千円上がると売上高は平均15.3万円減少する
- $\hat{\beta}_3 = 0.04$: 広告費と価格を一定に保ったとき、乗降客数が1人増えると売上高は平均0.04万円(400円)増加する
単回帰分析で得られる回帰係数と偏回帰係数は一般に一致しない。これは、単回帰では他の変数の影響が制御されていないためである。たとえば、広告費と価格が相関している場合、単回帰で得られる広告費の効果は、価格の影響を混在させたものとなる。
自由度調整済みR²¶
Key Concept: 自由度調整済み決定係数(Adjusted R²) 説明変数の数による決定係数の過大評価を補正した指標。$\bar{R}^2 = 1 - \frac{(1-R^2)(n-1)}{n-k-1}$ で計算される。説明力のない変数を追加した場合に値が減少しうるため、異なる数の説明変数を持つモデルの比較に適する。
R²は説明変数を追加すれば必ず増加するため、説明変数の数が異なるモデル間の比較には適さない。自由度調整済みR²は、説明変数の数 $k$ と標本サイズ $n$ による調整を行い、不要な変数の追加に対してペナルティを課す。説明力のない変数を追加した場合、R²は微増するが $\bar{R}^2$ は減少するため、モデル選択の指標として有用である。
多重共線性¶
Key Concept: 多重共線性(Multicollinearity) 重回帰分析において、説明変数間に強い相関関係が存在する状態。完全な多重共線性(説明変数間に完全な線形関係がある場合)ではOLS推定が不可能となり、高い多重共線性は回帰係数の推定精度を著しく低下させる。
多重共線性が存在すると、以下の問題が生じる。
- 回帰係数の標準誤差が増大し、t検定で有意とならない(検出力の低下)
- 回帰係数の符号が理論的に予想される方向と反対になる場合がある
- 説明変数を1つ追加・除外するだけで回帰係数が大きく変動する
- モデル全体のF検定は有意であるのに、個々の回帰係数のt検定は有意でないという矛盾が生じる
多重共線性の程度を定量的に評価する指標として、分散拡大係数(Variance Inflation Factor / VIF)がある。$VIF_j = \frac{1}{1 - R_j^2}$ で計算され($R_j^2$ は $X_j$ を他の説明変数で回帰したときのR²)、一般にVIFが10を超える場合は深刻な多重共線性が疑われる。
対処法としては、相関の高い変数の一方を除外する、主成分分析で変数を合成する、正則化手法(リッジ回帰)を適用するなどの方法がある。
変数選択¶
重回帰分析では、どの説明変数をモデルに含めるかが分析結果に大きく影響する。主な変数選択の基準として以下がある。
- 自由度調整済みR²の最大化: 説明力と節約性のバランスをとる
- 情報量規準(AIC / BIC)の最小化: モデルの当てはまりの良さと複雑さのトレードオフを定量化する。AIC(赤池情報量規準)は予測精度を重視し、BIC(ベイズ情報量規準)はモデルの節約性をより強く重視する
- 理論的妥当性: 統計的基準のみに依存せず、分析対象の理論や先行研究に基づいて変数を選択することが重要である
自動的な変数選択手法(ステップワイズ法など)は便利ではあるが、偶然の相関に基づく変数選択やp値の膨張(多重比較の問題)を引き起こす可能性がある。理論に基づいたモデル構築と統計的基準の併用が推奨される。
ダミー変数¶
Key Concept: ダミー変数(Dummy Variable) カテゴリカル変数(質的変数)を回帰モデルに組み込むために、0と1の値をとる二値変数に変換したもの。$k$ 個のカテゴリを持つ変数は $k-1$ 個のダミー変数で表現する。含めなかったカテゴリは基準カテゴリ(reference category)と呼ばれ、各ダミー変数の回帰係数は基準カテゴリとの差を表す。
経営データには、地域(関東・関西・九州)、商品カテゴリ(食品・日用品・家電)、季節(春・夏・秋・冬)など、カテゴリカル変数が多く含まれる。これらを直接数値として扱うことはできないが、ダミー変数を用いることで回帰モデルに組み込むことが可能となる。
具体例: 売上高に季節効果があるかを分析する場合、「冬」を基準カテゴリとし、3つのダミー変数を作成する。
| 季節 | $D_{\text{春}}$ | $D_{\text{夏}}$ | $D_{\text{秋}}$ |
|---|---|---|---|
| 春 | 1 | 0 | 0 |
| 夏 | 0 | 1 | 0 |
| 秋 | 0 | 0 | 1 |
| 冬 | 0 | 0 | 0 |
回帰モデル $\hat{Y} = 500 + 2.1X_1 + 80D_{\text{春}} + 120D_{\text{夏}} - 30D_{\text{秋}}$ が推定されたとすると、広告費 $X_1$ を制御した上で、冬と比較して春は売上高が平均80万円高く、夏は120万円高く、秋は30万円低いと解釈される。
$k$ 個のカテゴリに対して $k$ 個のダミー変数を作成してしまうと、切片との間に完全な多重共線性が生じるため(ダミー変数の総和が常に1となり切片と完全に相関する)、OLS推定が不可能となる。これをダミー変数トラップ(dummy variable trap)と呼ぶ。$k-1$ 個のダミー変数を使用することでこの問題を回避する。
ビジネスにおける統計的意思決定¶
回帰分析の手順¶
回帰分析をビジネス上の意思決定に活用する際の標準的な手順を以下に示す。
graph TD
A["1. 問題の定式化"] --> B["2. データ収集と整理"]
B --> C["3. モデルの推定 OLS"]
C --> D["4. モデルの仮定の検証"]
D --> E{"仮定は満たされているか"}
E -- Yes --> F["5. 結果の解釈と予測"]
E -- No --> G["モデルの修正"]
G --> C
F --> H["6. 意思決定への反映"]
各ステップでは以下の点に留意する。
- 問題の定式化: 目的変数と説明変数の候補を理論・経験に基づいて選定する
- データ収集と整理: 外れ値の確認、欠損値の処理、変数の変換(対数変換等)を行う
- モデルの推定: OLSにより回帰係数を推定する
- 仮定の検証: 残差プロット等で線形性、等分散性、独立性、正規性を確認する
- 結果の解釈と予測: 回帰係数の符号・大きさ・統計的有意性を評価し、予測を行う
- 意思決定への反映: 分析結果をビジネス上のアクション(予算配分、価格戦略等)に変換する
マーケティング分析での活用¶
マーケティングにおける回帰分析の典型的な活用例を示す。
広告効果測定: テレビ広告費、デジタル広告費、販促費などを説明変数とし、売上高を目的変数とする重回帰モデルを構築する。各メディアの偏回帰係数を比較することで、投資対効果(ROI)が最も高い広告チャネルを特定し、予算の最適配分に活用する。
価格弾力性の推定: 価格を説明変数、販売数量を目的変数とする回帰モデルから価格弾力性を推定する。対数変換したモデル $\ln(Q) = \beta_0 + \beta_1 \ln(P) + \varepsilon$ では、$\hat{\beta}_1$ が価格弾力性の推定値となる。$\hat{\beta}_1 = -1.5$ であれば、価格を1%引き上げると販売数量が約1.5%減少すると予測され、価格設定の判断材料となる。
需要予測と在庫管理¶
小売業や製造業において、需要予測は在庫管理・生産計画の基盤となる。重回帰モデルを用いて、過去の販売実績データ、季節要因(ダミー変数)、気温、曜日効果、販促イベントの有無などを説明変数として需要量を予測する。
予測にあたっては、予測区間(prediction interval)を併用することが重要である。予測区間は、個々の観測値がとりうる範囲を示すものであり、信頼区間よりも広い。在庫管理では、予測区間の上限を安全在庫の算定に利用することで、品切れリスクを一定水準以下に抑えることが可能となる。
A/Bテストと回帰分析¶
A/Bテストの結果は回帰分析の枠組みで解釈することができる。施策の実施有無をダミー変数 $D$(実施群=1、対照群=0)として、$Y = \beta_0 + \beta_1 D + \varepsilon$ というモデルを推定すれば、$\hat{\beta}_1$ が施策の効果(実施群と対照群の平均差)の推定値となる。これはt検定による二群の平均差の検定と数学的に同値である。
重回帰モデルに拡張すれば、ユーザー属性(年齢、性別、過去の購買履歴)を制御した上での純粋な施策効果を推定でき、より精密な効果測定が可能となる。
因果推論への注意¶
回帰分析で得られる結果は、あくまで変数間の統計的関連であり、直ちに因果関係を意味するわけではない。因果関係を主張するためには、以下の条件が必要である。
- 時間的先行性: 原因が結果に時間的に先行する
- 共変関係: 原因と結果が統計的に関連する
- 交絡因子の排除: 第三の変数によって見かけの関連が生じている可能性を排除できる
ランダム化実験(A/Bテスト)は、処置群と対照群をランダムに割り当てることで交絡因子を統制し、因果効果を推定する最も信頼性の高い方法である。観察データに基づく回帰分析では、すべての交絡因子を特定しモデルに含める必要があるが、観察されていない交絡因子が存在する可能性(脱落変数バイアス)を完全に排除することは難しい。経営上の意思決定においては、回帰分析の結果を「因果関係の証拠」ではなく「因果関係の示唆」として慎重に扱い、可能であれば実験的検証を行うことが望ましい。
まとめ¶
- 回帰分析は、説明変数と目的変数の関係を線形モデルで表現し、予測・説明を行う手法である
- OLS(最小二乗法)は残差の二乗和を最小化することで回帰係数を推定する
- 決定係数(R²)はモデルの当てはまりの良さを示すが、説明変数追加で自動的に増加するため、モデル比較には自由度調整済みR²を用いる
- 回帰係数にはt検定、モデル全体にはF検定を適用して統計的有意性を評価する
- 重回帰分析では偏回帰係数が「他の変数を制御した効果」を表し、多重共線性に注意が必要である
- ダミー変数によりカテゴリカル変数を回帰モデルに組み込むことができる
- 回帰分析の結果は統計的関連を示すものであり、因果関係の主張には追加的な根拠が必要である
Module 1-2 全体の振り返り: 本モジュールでは、記述統計(Section 1)でデータの要約と可視化、確率と確率分布(Section 2)で不確実性の数理的基盤、推測統計(Section 3)で標本から母集団への推論、そして本セクションの回帰分析で変数間の関係のモデル化と統計的意思決定を学んだ。これら統計学の基礎は、後続モジュールにおけるマーケティング・リサーチでの消費者行動分析、会計データの分析と財務予測、ファイナンスにおけるリスク測定とポートフォリオ理論、オペレーションズ・マネジメントにおける品質管理(管理図、工程能力指数)など、経営学の諸分野に広く応用される基盤となる。
用語集(Glossary)¶
| 用語 | 英語表記 | 定義 |
|---|---|---|
| 回帰分析 | Regression Analysis | 説明変数と目的変数の関係を数学的モデルで表現し、予測・説明を行う統計的手法 |
| 回帰係数 | Regression Coefficient | 説明変数が1単位変化したときの目的変数の平均的な変化量 |
| 最小二乗法 | Ordinary Least Squares (OLS) | 残差の二乗和を最小化して回帰係数を推定する方法 |
| 決定係数 | Coefficient of Determination (R²) | 目的変数の全変動のうち回帰モデルで説明される割合 |
| 自由度調整済み決定係数 | Adjusted R² | 説明変数の数によるR²の過大評価を補正した指標 |
| 重回帰分析 | Multiple Regression Analysis | 2つ以上の説明変数を用いる回帰分析 |
| 偏回帰係数 | Partial Regression Coefficient | 他の説明変数を制御した上での各説明変数の効果 |
| 多重共線性 | Multicollinearity | 説明変数間に強い相関が存在する状態 |
| 分散拡大係数 | Variance Inflation Factor (VIF) | 多重共線性の程度を定量的に評価する指標 |
| ダミー変数 | Dummy Variable | カテゴリカル変数を0と1の二値変数に変換したもの |
| ダミー変数トラップ | Dummy Variable Trap | k個のカテゴリにk個のダミー変数を作成することで生じる完全多重共線性 |
| 等分散性 | Homoscedasticity | 誤差項の分散が説明変数の値にかかわらず一定であること |
| ガウス=マルコフの定理 | Gauss-Markov Theorem | OLS推定量がBLUEであることを保証する定理 |
| 予測区間 | Prediction Interval | 個々の観測値がとりうる範囲を確率的に示す区間 |
確認問題¶
Q1: 最小二乗法(OLS)はどのような基準で回帰係数を決定するか。また、OLS推定量が最良線形不偏推定量(BLUE)であるための条件は何か。 A1: OLSは、観測値と予測値の差(残差)の二乗和 $\sum(y_i - \hat{y}_i)^2$ を最小化する基準で回帰係数を決定する。OLS推定量がBLUEであるためには、ガウス=マルコフの仮定(線形性、誤差の期待値ゼロ、等分散性、誤差項の独立性)が満たされる必要がある。これらの仮定のもとで、OLS推定量は線形不偏推定量の中で最小の分散を持つ。
Q2: 重回帰分析における偏回帰係数と単回帰分析の回帰係数はどのように異なるか。偏回帰係数が経営分析で重要である理由を具体例を交えて説明せよ。 A2: 単回帰の回帰係数は他の変数の影響を考慮しないため、交絡因子の効果が混在した値となる。偏回帰係数は他のすべての説明変数を一定に保ったときの効果であり、各変数の独立した影響を分離できる。たとえば、広告費と売上高の関係を分析する際、価格や季節要因を制御しないと、広告費の真の効果を正しく推定できない。重回帰分析で価格・季節をモデルに含めることで、それらの影響を制御した上での広告費の純粋な効果(偏回帰係数)が得られ、広告予算の適切な配分判断に活用できる。
Q3: 多重共線性が存在する場合に回帰分析の結果にどのような問題が生じるか。その検出方法と対処法を述べよ。 A3: 多重共線性が存在すると、回帰係数の標準誤差が増大し推定精度が低下する。その結果、回帰係数が不安定になり、小さな標本変動で大きく変化する。また、係数の符号が理論的に予想される方向と反転したり、モデル全体のF検定は有意でも個々のt検定は有意にならないという矛盾が生じたりする。検出方法としてはVIF(分散拡大係数)が一般的であり、VIFが10を超える場合に深刻と判断する。対処法としては、相関の高い変数の一方を除外する、主成分分析で変数を合成する、正則化手法(リッジ回帰等)を適用するなどがある。
Q4: 決定係数(R²)と自由度調整済み決定係数(Adjusted R²)の違いを説明し、モデル比較においてAdjusted R²が推奨される理由を述べよ。 A4: R²は目的変数の全変動のうち回帰モデルで説明される割合であり、0から1の値をとる。R²は説明変数を追加すれば必ず増加(または維持)するため、不要な変数を追加してもR²が下がらない。Adjusted R²は説明変数の数と標本サイズによる調整を行い、説明力のない変数を追加した場合にはペナルティとして値が減少する。したがって、説明変数の数が異なるモデルを比較する際には、Adjusted R²を用いることで、モデルの説明力と節約性(パーシモニー)のバランスを適切に評価できる。
Q5: 回帰分析の結果から因果関係を主張することが困難である理由を説明し、因果効果の推定により適した方法を1つ挙げよ。 A5: 回帰分析で得られる結果は変数間の統計的関連(相関)であり、因果関係を直接的には示さない。観察データでは、モデルに含まれていない第三の変数(交絡因子)が説明変数と目的変数の両方に影響を与え、見かけ上の関連を生じさせている可能性がある(脱落変数バイアス)。観察されていない交絡因子を完全に排除することは困難である。因果効果の推定により適した方法としてランダム化実験(A/Bテスト)がある。処置群と対照群をランダムに割り当てることで、観察・未観察を問わずすべての交絡因子の影響が平均的に等しくなり、処置の純粋な因果効果を推定できる。