最小二乗法とは｜簡単解説

2023年12月11日 2023年11月26日

アドミンアドミン

最小二乗法は取得したデータに関数を近似（フィット）させる方法のひとつで、関数により与えられる予測値と取得データの残差平方和を最小とする係数と切片を求めます。最小二乗法は回帰分析を行う際の手法であるほか、分散分析や因子分析にも使われます。

最小二乗法とは

最小二乗法を「取得したデータを関数を用いて近似させる方法」と述べましたが、データの関係性を関数であらわすことができれば、データの誤差を除いたりデータから予測したりすることができます。

例えば、以下の左のグラフのようなデータがある場合、xの増加に従いyも増加する１次関数で表されるx、yの関係性が推測できます。

これを、右側のグラフの矢印（残差※）の長さの2乗和が最小になる関数 f(x)を求めるのが最小二乗法です。

この場合の f(x)＝ax＋bが回帰直線であり、係数aと切片bを求めればデータに近似する直線を描くことができます。

※残差：観測値と推定するモデルである f(x)との差。誤差は観測された値であり計算では求められないが、残差は計算で求めることができる。偏差は観測値と平均値との差。

最小二乗法で求める回帰式は1次関数に限りませんが、ここでは直線で表されるf(x)＝ax+bを回帰式として説明します。

データを（x₁,y₁）,（x₂,y₂）,・・・（x_i,y_i）とすると、データの残差は y_iー(ax_i＋b)です。

データ個数分の残差を2乗したものの合計は以下の式であらわされます。

{y₁ー(ax₁＋b)}²＋{y₂ー(ax₂＋b)}²＋・・・{y_iー(ax_i＋b)}²＝i=1n{y_iー(ax_i＋b)}²

係数aと切片bは以下の式で求められます。

a＝SxySx² b＝yーax
Sxy：xとyの共分散Sx²：xの分散 x,y：変数の平均値

ここから具体的なデータを使って回帰式を求めてみます。

x,yのデータは以下のものとし、xの分散とx,yの共分散を求めます。

x	y	x偏差	y偏差	x偏差²	x偏差×y偏差
10	40	-25	-45	625	1125
20	60	-15	-25	225	375
30	60	-5	-25	25	125
40	100	5	15	25	75
50	130	15	45	225	675
60	120	25	35	625	875
x平均35	y平均85	ー	ー	xの分散291.7	x,yの共分散541.7

ｘ,yの偏差を求め、x偏差²の平均であるxの分散とx偏差とy偏差の積の平均であるx,yの共分散を求めます。

f(x)＝ax+bの係数aは a＝SxySx² であることから、a＝541.7 / 291.7 ＝1.857

切片bは b＝yーax であることからb＝85ー1.857×35＝20.005

となり、回帰式は y＝1.857x＋20.005と求められます。

上記で計算したy-ax+bの係数aと切片bはエクセルのLINEST関数を使って求めることができます。

LINEST関数で書式は以下のようになります。

＝LINEST（yの範囲,xの範囲,定数,補正）

引数はyの範囲から入力することに注意が必要です。

定数と補正はTRUEまたはFALSEを指定し、以下の内容が適用されます。

	TRUE	FALSE
定数	y=ax+bのaとbを出力。省略した場合はTRUEが指定される。	y＝ax+bの定数bを0として係数aのみが出力される。
補正	標準誤差、決定係数、F補正項などの追加情報が出力される。	上記係数と定数のみ出力。省略可。

y=ax+bの係数aと定数bが出力されるため、あらかじめ出力される2つのセルを指定しておきます。