異常値(外れ値)とは|簡単解説
異常値(外れ値)とは他のデータと極端に乖離した値のこと
異常値(外れ値)のカンタン語句解説
「外れ値」とは、文字の通り他の測定値(データ)から極端に離れた値を意味します。また、入力ミスや測定の不備などが原因で極端な値やあり得ない値をとるものを「異常値」と言います。
異常値(外れ値)の違いと例
「異常値」と「外れ値」。このふたつはよく同じ意味として使われることがありますが、定義によって異なることもあり、厳密には違う言葉です。
例えば、とある小学校の1年生が運動測定で100メートル走を行ったと仮定します。全国平均では男子が22.32秒・女子が22.92秒となりますが、計測したタイムをデータ化した際に一人だけ12.92秒とありました。小学1年生の歴代最高記録を大幅に上回っている極めて速いタイムです。
そこで確認したところ、どうやら誤って担任教諭のタイムが混ざっていることが判明しました。
今回の例ではデータ入力時のミスによるものかと思われますが、それ以外にも測定時のミスであったり記録を付ける際のミスによることも考えられます。
ただし、このケースでは直ぐに誤りと気付きましたが、逆に途中で転倒してしまい平均タイムよりも極端に遅かった児童や計測不可だった児童がおられる可能性も十分あるかと想像します。
このように世の中にあるあらゆるデータ解析において、極端に離れた値全てが”異常”であるとは限りませんので、そのような異常値が発生した場合も根拠無く削除するのではなく、先ずは十分に検証し原因の追求が必要です。
異常値(外れ値)を見分ける方法とは
そもそも”異常”な値とはどの程度のことを指すのかと言いますと、正規分布のような値であれば残差が標準偏差の2〜3倍以上のことが多いです。2倍以上なら4.6%、3倍なら0.3%の確率です。
見極めが大事!確認方法
異常値(外れ値)を確認する方法は様々ありますがここで幾つか紹介します。
標準偏差での確認
標準偏差:最もポピュラーな方法であり平均より上下3σ(バックグラウンド計測値の平均値に対して、標準偏差の3倍を加えた値を検出限界値と定義する)より外れたものを、外れ値とみなします。エクセルでヒストグラムを使用し標準偏差を求めることができます。ただし、極端な異常値(外れ値)に引っ張られる恐れがあるため注意しなければなりません。
スミルノフ・グラブス検定での確認
スミルノフ・グラブス検定:データが正規分布に従う条件のもと帰無仮説と対立仮説を立て、他のデータと同じ正規分布に従っているかどうかを検定し異常値(外れ値)にします。
そのデータを除いた上で再度検定を行ない、外れ値がなくなるまで繰り返します。エクセル統計で外れ値検定に含まれる手法ですが、あくまで正規分布に従う条件のため極端にかけ離れた分布のデータに利用することができません。
トリム平均値での確認
トリム平均:上位と下位のデータを一部取り除いて算出する方法です。例えば10%を除いた場合「10%トリム平均」といい、25%トリム平均は「中央平均」といいます。
異常値(外れ値)があったとしても、平均値に影響を受けない利点があります。エクセルで求めるには、TRIMMEAN関数を用います。
箱ひげ図・四分位範囲での確認
箱ひげ図・四分位範囲:その名の通り、箱ひげ図は長方形の「箱」と「ひげ」と呼ばれる直線が上下に伸びています。ひげの上側部分が最大値、下側部分が最小値となっており、その間に25%づつのデータが4つの区間で区切られます。
エクセルを使用し箱ひげ図を作った時に、それ以外の外部に点が表示されることがあり、それが異常値(外れ値)となります。標準偏差と違い中央値を基点とするので、異常値(外れ値)に引っ張られることがありませんが、その分少し手間がかかることが難点です。
クラスター分析での確認
クラスター分析:クラスター=属性・集団などの意味がある通り、データの全体の中から似ている同士をグループで分けていく中で異常値(外れ値)を導く方法です。
クラスター分析には大きく分けて2つの手法がありますが、分類の基準を分析者が決めるため、主観が入りやすく客観的な証拠としてはあまり向いていません。
クラスター分析の詳しい解説はこちらをご覧ください
2つの項目で確認する
このように、異常値(外れ値)を確認する方法は他にも沢山ありますが、ひとつの項目だけを対象としてでは外れ値を確認出来ないことがあります。2つの項目(二変量解析)によりはじめて、異常値(外れ値)を確認出来るケースです。分析を行う際は二変量によるデータの関係性を把握することが大事になります。
語句解説のまとめ
外れ値とは、研究や測定を行う際にまれに発生する極端に離れた異常な数値を指し、その中でも原因が分かる場合を「異常値」と呼んでいます。
異常値(外れ値)を証明するには様々な方法があり、それぞれメリットやデメリットなども存在します。
外れ値が発生する原因
①測定時や操作上のミス
②データを記録する際の誤記
③対象とする母集団にそのような値が実際に含まれる
色々な原因があるため、確実に理由が分かる場合(ミスなどによる異常値と確認した場合)を除いて、そのような値が出現した背景を含め除外するにはさらなる原因を追求する必要があります。