PAGE TOP

関連情報

印刷する

Excelの「stdev.p」を使う

分散と標準偏差

さぼ郎
平均」は、資料そのものを代表する値で「標準」といいます。
偏差」とは、平均値からのバラツキをいいます。

図のようなデータが5つあったとして、個々の値から平均を引いたものを「偏差」といいます。

頓活

偏差は、このデータ集団としての「個性」を表しているとするなら、その個性の総和は、データ全体の個性を表すことになります。

しかし、個々の値から平均を引くとするなら、普通に考えれば総和は「0」になります。なぜなら、平均からの差をここに表しているわけですから。

次に、個々の偏差を二乗した和を求めることを「変動」として求めます。この変動は二乗してありますが、それを個体数で割ります。

これを偏差の「二乗平均」と呼ぶことができます。この平方根を「標準偏差」と呼びます。

この二乗平均は、バラツキの平均ということになります。つまり、データの集団の中の個々の個性を平均した値が「標準偏差」ということになります。

ようするに、「標準偏差」では、何がみられるのかというと、データの集団のバラツキをみることができます。

図を見ればわかるように「二乗平均」と関数の「stdev.p」は同じ値になります。

ちなみに、同じ標準偏差の関数で「stdev.s」という関数もあります。こちらは個体数から「1」を引いたもので、必ず値が少し大きくなります。

説明によれば、母数が少なければ「n-1」にすることで値が大きくなるとのことですが、もっと詳しい数学的な説明もありますが、ちょっと読んだだけではわかりませんので、深追いはしません。

この標準偏差を「σ(シグマ)」で表すのだそうです。平均から±2σの間に「68%」が入り、±4σの間に「95%」が入るということがわかっているのだそうです。

乱数で100個のデータを生成して試してみたら65個が平均から2σの間に入りました。ほぼ、想定どおりですね。

標準偏差に似たものとして「偏差値」というのがあります。これは平均を「50」に補正して、それぞれの値を評価するものです。

頓活

偏差値60以上(あるいは40以下)は、上位(下位)15.866%。
偏差値70以上(あるいは30以下)は、上位(下位)2.275%。
偏差値80以上(あるいは20以下)は、上位(下位)0.13499%。
偏差値90以上(あるいは10以下)は、上位(下位)0.00315%。
偏差値100以上(あるいは0以下)は、上位(下位)0.00002%。

となり、40~60の間に68.3%が入ります。東京大学理科Ⅲ類の偏差値は「79」だそうです。

それでも千人に一人か二人はいるわけですから、宝くじよりは圧倒的に楽な勝負と思います。

とはいえ、偏差値が高いということはテストの成績が良いということで、IQとは別のことですが、間違いなく相関があるでしょう。

で、世の中に変革を興すようなイノベーションを創造する人は、実は、そんなにIQが高い必要はないようです。

頓活

ノーベル賞とIQには相関がないらしいので、さて、いまからノーベル賞でも狙おうか というわけには行きそうもありません。

というのは、イノベーターのほうが偏差値79以上に、人口に占める割合は少なさそうだからです。



キーワード