メジアン(median) 中央値

メジアンとは中央値のことで、データを小さい順(もしくは大きい順)に並べ替えて、データ列の真ん中になる値のことです。データが複数個ある場合は、中央値が2つになるので、その中央値の平均をメジアンとします。

例){10,20,40}というデータの場合、メジアンは 20
例){10,20,40,60}というデータの場合、メジアンは 30

分布の偏りが大きい場合には平均よりもメジアンの方がよいこともあります。

たとえば、{10,20,40,50,20,30,100000000}といったデータがあったとします。この場合、,100000000は異常データです。測定ミスかもしれません。これをまぜて平均をもとめると、たったひとつの異常データのせいで全体の平均がグーンと大きくなってしまいます。異常値を排除したまんなかを求めたい場合にメジアン(中央値)を使うと安定した結果になることが期待されます。

 

 モード(mode)最頻値

モードとは最頻値のことで、データの中で最も多く現れる値です。

例){10,20,40,40}というデータの場合、モードは 40です。どうしてかというと、10,20は1回(個)のデータであるのにたいして、40は2回(個)あり、この集合で最も多く現れているのは40になるからです。

 階級の切り方のよって,モードが変わってしまいます。どういうことかといいますと、上の例では10,20,40,40と10刻みのデータにしていますが、実はこのデータは、{11,23,41,44}のデータであるのに1の位をまるめた刻み幅を10で区切った数値で測定値をもとめていたのだとします。刻みを1にすると、40は最頻値ではなくなります。この場合、すべての数値が異なるのでモードを求める意味はないのですが、どうしてもモーロをだすとなると、11,23,41,44すべてがモードということになります。
逆に、30刻みで階級をきると、先の例でだしたデータは、{0,0,30,30}となり、モードは0と30となります。
データが少なすぎる場合や、バラけすぎている場合は、モードを求めても意味がないことがこの例からわかります。
 適切な階級にすることで、データの出現頻度がギザギザの山にならず、ある程度の傾向を示すなだらかな分布の形としてみえるようになります。

 平均値

すべての合計をだして、個数で割った数値です。頻繁に使われる方法ですから、説明するまでもないです。
あまり使われませんが、平均のもとめかたはいろいろあって、先の平均は相加平均と呼ばれるものです。相加平均以外にも相乗平均、調和平均などがあります。
平均をつかわず、中央値やモードをどういうときに使うかは、そのデータの特性によりますが、ゴミデータや異常データを排除する目的で中央値やモードを使うことがあります。

パーセンタイル

たまに、パーセンタイルという指標が使われることがあります。

よく、テストの点数を公表するときに、上位10位までの点数を使ったりしますが、その発展系のようなものです。固定値でのランキングではなく、パーセントで上位(場合によっては下位)がどの位置にあるのかを示します。パーセンタイル50%といえば、真ん中の順位の場所を示します。

つまり、データを小さい順(大きい順)に並べ、ある値がP%目当たるとき、その値をPパーセンタイルと言います。

100人がテストを受けたとします。その点数の20%タイルとは、点数の低い順に並べて20番目に相当する点数のことをいいます。20%タイルの点数より低ければその点数の人は下位20位のランクに入っていることとなります。

25パーセントタイル、50パーセントタイル、75パーセントタイルで区切れば4つのグループにわかれます。これらの数は、特別に4分位数と呼ばれることもあります。

第1四分位数は25パーセントタイル、第2四分位数は50パーセントタイル(メジアン)、第3四分位数は75パーセントタイルと同じものを指します。