中央値とは?平均値との違い・使い分け|スポーツ選手のスタッツで読み解く

ナレッジ

1. 中央値の意味(やさしく・正確に)

  • 直感:データを小さい順に並べたときの「真ん中の値」。下位50%と上位50%を分ける境界(第50パーセンタイル)。
  • 計算手順
  1. 昇順に並べる
  2. 件数が奇数なら中央の1つ/偶数なら中央2つの平均
  • 性質(ブログ向けの式表現)
    中央値 m は「絶対偏差の合計」を最小にする点:
    「sum |xi − m| が最小になる m」
    → 外れ値の影響を受けにくい(ロバスト)。

  • [1, 3, 10] → 中央値 = 3
  • [1, 3, 10, 100] → 中央値 = (3 + 10) / 2 = 6.5

2. 平均値(おさらい)

  • 定義:合計 ÷ 件数
  • 性質:二乗誤差「sum (xi − μ)^2」を最小化する点=重心。外れ値に引っ張られやすい。

  • [1, 3, 10, 100] → 平均 = (1+3+10+100)/4 = 28.5(100に強く影響)

3. 中央値と平均値の違い(要点比較)

観点中央値平均値
外れ値への強さ強い(ロバスト)弱い(大きく動く)
意味合い「順位の真ん中」「全体の重心」
向く場面所得・地価・滞在時間・試合成績など偏りが出るデータ合計や配分の議論、原価・単価、正規分布に近いデータ

実務の基本:中央値と平均値はセットで併記し、分布(箱ひげ図やヒストグラム)も添えると誤解が減ります。


4. 両者が「近い/離れている」時の読み方

  • 近い:分布が概ね対称で、極端値が少ない可能性。どちらを代表値に使っても結論が大きく変わりにくい。
  • 平均 > 中央値:右に長い裾(高値の外れ)で平均が押し上げ。例:一部の大口売上、超高額物件、爆発試合。
  • 平均 < 中央値:左に裾(0埋め・短時間・欠測起因など)。データ処理の影響を疑う。

5. スポーツ選手のスタッツにおける中央値の使いどころ

なぜ中央値が効くのか

試合ごとの成績は「爆発(キャリアハイ)」や「早退(負傷/短時間)」で簡単に歪みます。
中央値は外れ値の影響を受けにくく、その選手の“普段どおり”を示しやすい指標です。

例:直近10試合の得点
データ:[12, 14, 15, 16, 16, 17, 18, 19, 20, 70]

  • 平均 = 21.7(70点が平均を押し上げ)
  • 中央値 = 16.5(典型的な試合水準)
    → レビューで「平均21.7」だけだと実態より高く見える。中央値併記でバランスのよい評価に。

使い分けの指針

  • シーズン通算や総得点の議論:平均(合計の配分)も重要
  • コンディション把握、1試合あたりの“安定水準”:中央値が有効
  • 控え選手・出場時間に揺れ:中央値優位(小標本の安定性)
  • 長期の安定力:中央値と四分位範囲(IQR)で“ぶれ幅”を把握

出場時間の影響をそろえる

  • 分母の正規化:バスケ→ per-36、サッカー→ per-90 などに変換してから中央値/平均を比較
  • 極端に短い出場を除外 or 重み付け
  • 例)「10分未満は除外」
  • 例)重み付き中央値:重み = 出場分数(出場が長い試合をより反映)

実装メモ(簡易)

  • Excel:
  • per-36 = points * (36 / minutes)
  • 10分未満を除外した列を作り、MEDIAN()AVERAGE()
  • SQL(PostgreSQL):
  • 中央値:percentile_cont(0.5) within group (order by value)
  • Python(pandas):
  • s.median()s.mean()、per-36 列を作って両方算出

ローリング中央値で“今の調子”

直近5試合などのローリング中央値を使うと、爆発試合のノイズを抑えつつ地に足のついた短期トレンドが見えます。役割変更や出場時間増減の影響を読み取りやすくなります。


6. 実務でのチェックリスト

  • データに外れ値・偏りがある → 中央値を主役、平均は参考に併記
  • 合計の議論(単価、原価、累積) → 平均も必須
  • レポートは 中央値+平均+分布(箱ひげ/ヒストグラム) の三点セット
  • スポーツは per-36 / per-90 + しきい値除外 + 中央値併記 を基本運用に

7. よくある誤解

  • 「中央値だけ見れば十分」→ 分布の形まではわからない。四分位やヒストグラムも確認。
  • 「平均が悪い」→ 目的次第。合計や配分には不可欠。使い分けが重要。
  • 「中央値は計算が手間」→ ツールではワン関数。むしろ外れ値処理の手間を下げることも。

まとめ

  • 中央値=並べたときの真ん中(第50パーセンタイル)。外れ値に強く“典型”を表す
  • 平均=合計÷件数の重心。合計や配分の議論で重要。
  • 近いときは分布が対称・外れ値少、離れるときは歪みや外れ値・データ処理の影響を疑う。
  • スポーツのスタッツでは、per-36/per-90 などで分母をそろえ、中央値を併記して“普段どおり”の実力を読み解く。

コメント

タイトルとURLをコピーしました