データ分析や統計学の基礎として広く使われている回帰分析は、変数間の関係を数式で表し、未来の値を予測するための手法です。マーケティングや経済学、機械学習など多様な分野で活用されており、データを扱う職種では特に重要な知識となっています。本記事では、回帰分析の基本的な仕組みをわかりやすく解説します。
回帰分析とは何か
回帰分析とは、ある変数(目的変数)の値を、別の変数(説明変数)を用いて予測・説明するための統計的手法です。たとえば「広告費を増やしたときに売上がどれくらい変化するか」を定量的に把握したい場合などに活用されます。
この手法は19世紀にイギリスの統計学者フランシス・ゴルトンが提唱した概念をもとに発展しました。現在では統計学の中核をなす分析手法のひとつとして、学術・ビジネスを問わず幅広い場面で利用されています。
目的変数と説明変数
回帰分析では、次の2種類の変数を使います。
- 目的変数(従属変数):予測したい変数。売上高・気温・試験の点数など
- 説明変数(独立変数):予測に使う変数。広告費・湿度・勉強時間など
目的変数と説明変数の関係を数式として表現することで、説明変数の値が変わったときに目的変数がどのように変化するかを推定できます。
単回帰分析と重回帰分析の違い
回帰分析には、使用する説明変数の数によって大きく2種類に分けられます。
単回帰分析
説明変数が1つだけの場合を「単回帰分析」と呼びます。たとえば「勉強時間(説明変数)からテストの点数(目的変数)を予測する」ようなシンプルなモデルがこれに当たります。
単回帰分析は次のような式で表されます。
y = a + bx
ここで y は目的変数、x は説明変数、a は切片(定数項)、b は回帰係数(傾き)を意味します。グラフ上では一本の直線として表現され、直感的に理解しやすいモデルです。
重回帰分析
説明変数が2つ以上ある場合を「重回帰分析」と呼びます。現実のデータは複数の要因に影響されることが多いため、実務では重回帰分析がよく用いられます。
たとえば「勉強時間・睡眠時間・前回の点数」という3つの説明変数からテストの点数を予測する、といったケースがこれに当たります。説明変数が増えるほどモデルの精度が向上する場合がありますが、過学習に注意が必要です。
回帰分析の仕組み:最小二乗法
回帰分析では、実測値と予測値の差(残差)をできるだけ小さくするように直線(または平面)を引きます。この際に使われる代表的な方法が最小二乗法です。
最小二乗法とは、各データ点と回帰直線との差(残差)を二乗して合計した値(残差平方和)を最小にするように回帰係数を決定する方法です。二乗することで正負の差が相殺されるのを防ぎ、全体的な誤差を最小化できます。
この計算はExcelや統計ソフト(RやPythonのscikit-learnなど)を使えば自動的に行われるため、手計算の知識がなくても実務では利用可能です。ただし、原理を理解しておくことで結果の解釈が正確になります。
回帰分析の評価指標
分析結果のモデルがどれくらい正確かを確認するために、いくつかの評価指標が使われます。
決定係数(R²)
決定係数(R²)は、モデルが目的変数の変動をどの程度説明できているかを示す指標です。0〜1の値をとり、1に近いほどモデルの当てはまりがよいとされます。ただし、説明変数を増やすだけでR²は上昇するため、重回帰分析では「自由度調整済みR²」を参照することが推奨されます。
p値と有意差
各説明変数の回帰係数が統計的に意味のある値かどうかを確認するために、p値を確認します。一般的にp値が0.05未満であれば、その説明変数は目的変数に対して統計的に有意な影響を持つと判断されます。
残差の確認
残差(実測値と予測値の差)が特定のパターンを示す場合、モデルの仮定が満たされていない可能性があります。残差が正規分布に従っているか、分散が一定かどうかを確認することも、信頼性の高い分析には欠かせません。
回帰分析の活用シーン
回帰分析は幅広い分野で実際に活用されています。代表的な例を以下に挙げます。
- マーケティング:広告費と売上の関係を分析し、最適な予算配分を検討する
- 不動産:築年数・立地・面積などから物件価格を予測する
- 医療・健康:生活習慣データから疾患リスクを推定する
- 金融:過去の市場データをもとに株価や為替の変動を予測する
- 製造業:製造条件と製品品質の関係を分析し、工程を最適化する
このように、数値データが存在する領域であれば、ほぼあらゆるビジネス課題に応用できる汎用性の高い手法です。
まとめ
回帰分析は、変数間の関係を数式で表し、予測や要因分析に役立てる統計手法です。説明変数が1つの単回帰分析と、複数ある重回帰分析の2種類があり、最小二乗法によって最適なモデルが求められます。
分析結果を正しく解釈するためには、決定係数やp値、残差の確認といった評価指標の意味を理解しておくことが重要です。ExcelやPython、Rなどのツールを使えば比較的手軽に実施できるため、データ分析の入門として最初に学ぶべき手法のひとつといえるでしょう。


コメント