使い方
平均・中央値・最頻値は中心傾向を表す古典的な 3 指標で、データセットが数直線上の「どこ」に位置するかを 1 つの数字で要約します。同じ問い(「典型的にはいくつか?」)に対して 3 通りの答え方をし、しばしば食い違います — それこそが 3 つを使い分ける意義です。平均は算術平均:値を合計し個数で割る。中央値は並べ替えた時の真ん中の値:データの半分が上、半分が下。最頻値は最も頻繁に現れる値(複数の値が同数最頻なら複数の最頻値、すべて固有なら最頻値なしも有り得る)。
どれを使うかはデータの形と伝えたい内容次第。平均はデータが概ね対称で大きな歪みがない場合に最も有益 — 正規分布では平均・中央値・最頻値が一致します。しかし平均は外れ値に敏感:99 人の普通の人がいる部屋に 1 人の億万長者が入ると、平均は大きく押し上げられ、中央値はほぼ不変。つまり「典型的な」所得・住宅価格・回答時間・ファイルサイズなど長い裾を持つ分布では中央値を使うべき — 大多数の様子をよりよく要約します。平均は後段の計算(掛け算、グループ間の合計、平均中心化を仮定する t 検定など)には便利ですが、技術的でない聴衆に単一の「典型値」として伝える際には誤解を招きやすい。
最頻値はカテゴリ型データに最も有用(「最も人気の色」「最も多い職業」「最もクリックされたボタン」)、また自然な集中があるカウントデータにも使えます。連続データ(身長、気温、価格)では、ミリ単位で全く同じ値は稀のため最頻値は無意味になりがち — その場合は範囲(ビン)に区切って「最頻ビン」を報告します。実用的な目安:対称データで代表値を 1 つ欲しい → 平均。歪みや外れ値あり → 中央値。分布のピークやカテゴリ → 最頻値。3 つを併記して読者に比較させるのが最も誠実なやり方であり、平均と中央値の食い違いから歪みが浮かび上がります。
計算式
xᵢ は個々のデータ点。n はデータ数。中央値はまずデータを並べ替える必要があり、n が偶数なら中央 2 値の平均。最頻値は並べ替え不要で、複数値(双峰/多峰)または該当なし(すべて固有)になる場合があります。
計算例
- データ:7、3、9、3、5、8、3。n = 7。
- 平均 = (7+3+9+3+5+8+3) / 7 = 38 / 7 ≈ 5.43。
- 昇順:3、3、3、5、7、8、9。n は奇数(7)なので、中央値 = (7+1)/2 = 4 番目の値 = 5。
- 最頻値:3 は 3 回出現し他のどの値より多いので、最頻値 = 3。平均(5.43)、中央値(5)、最頻値(3)はすべて異なる — 小さな歪んだデータセットでは典型的で、3 つすべてを報告する方が単独の指標より全体像をよく表します。
よくある質問
なぜ平均と中央値は頻繁に異なるのですか?
平均は外れ値や歪みに敏感ですが、中央値は無視するからです。平均は計算に各値の実際の大きさを使うため、極端に大きい・小さい値 1 つで顕著に動きます;中央値は値の位置しか使わないので、極端な外れ値も中央より上または下にある他の点と同じ寄与にしかなりません。平均 > 中央値ならデータは右に歪んでいる(高い値の長い裾が平均を引き上げる — 所得・資産・応答時間・ファイルサイズに典型)。平均 < 中央値なら左に歪み(より珍しいが、定年退職年齢やフロア/天井効果のあるテストスコアで見られる)。平均と中央値の差の大きさそのものが、歪みを素早く測る指標になります。
最頻値が複数あったらどうしますか?
すべて報告してください。双峰データセットは最頻の値が 2 つ並ぶ(例:3、3、5、5、7 — 3 と 5 がともに 2 回出現、他はすべて 1 回)。多峰は 3 つ以上。本ツールは恣意的に 1 つ選ぶのではなく、同点の値をすべて列挙します。双峰性は、異なる 2 つの部分集団を一緒に分析しているサインであることが多い — 例:成人男女が混在する群の身長は双峰になる(性別ごとに典型的な範囲があるため)。複数の最頻値を見たら、データが実は混合で、部分集団に分けた方がよくないかを問うべきです。すべての値が固有なら(連続測定では一般的)最頻値は存在しない — その場合は「最頻値なし」が正答で、平均と中央値で分布を記述すべきです。
3 つすべて報告すべきか、1 つだけで良いか?
常に 3 つすべてを計算し、聴衆と目的に応じて報告してください。技術的な聴衆や詳細分析では、3 つの差を含めた報告の方が分布の形について豊かな物語を伝えられます。技術的でない聴衆に 1 つだけ伝えるなら:歪み/所得型データには中央値、対称/計測型データには平均、データがカテゴリ型や自然な集中点を持つ場合のみ最頻値。ジャーナリズム・政策報道では中央値が既定値として正解 — 外れ値で操作しづらく「真ん中の人」を誠実に表現します。科学記事では平均と標準偏差の併記が慣例。プロダクト/UX 分析では 3 つすべてが役立つ:平均は全体利用状況、中央値は典型的なユーザー挙動、最頻値は最も多いパターン(例:「大半は 1 セッションあたり 3 メッセージを送信」 — メッセージ数の最頻値)の特定に。