PAGE TOP

関連情報

印刷する

確率と確率変数

さぼ郎
高校で確率とか順列・組み合わせなどという授業があったことは記憶になりますが、それ以外の記憶としては「やたらと難しい」ということぐらいしか記憶に残っていません。

そんな確率ですが、統計においては不可欠のようですので避けては通れません。

サイコロを投げると、1~6の値がかならず出るわけですが、その値は確率的に決まります。

簡単に言えば、どの数字が出るのも「6分の1」になるはずです。同様に偶数の出る確率は「2分の1」になるはずです。

ちなみに、Excelで1~6を乱数で1,000回発生させて見ました。

頓活

意外と「6分の1」にもならないし、偶数や奇数が「2分の1」にもなりませんが、これはExcelの乱数に偏りがあるからなのでしょうか。あるいは、そんなものなのでしょうか。

確率にも平均分散があるのだそうです。
1~6をサイコロではなく得点としてみます。

頓活

1000人の平均が「3.472」となりました。各得点の平均からの分散の平均が「2.875216」です。

各得点が「3.472」から離れている値を二乗したものの平均を出しています。

その平均は二乗しているので平方根を出すと「1.695646」となり、これが分散となります。

68%が「1.776354~5.167646」の間に入るというわけですが、これだとあまり有意な意味を持ちませんけど。

この1000人から1人を選ぶと、その人の得点が「2点」である確率は18.3%であると言えるわけです。

例えば、日本人の身長を測ろうとする場合、全国民の身長を測ることは難しいです。そこで通常は無作為に抽出することになります。

頓活

図では1000件のデータから100件を抽出しています。といっても上から100件を選んでいるのですが、そもそも乱数で発生させているのですから、多少は作為があるかもしれませんが、ほぼ、無作為とすることができるでしょう。

「100」とあるほうが「1000」とある方の標本になります。平均で見ると「2.85%」の誤差があります。分散で見ると約6%の乖離がありますので、やはり、母集団と標本とでは、ある程度の違いは認めなければならないことなのでしょう。

この乖離の信憑性を調べる方法もありますが、それにつきましては、いずれ取り組んでみることとします。

例えば「麒麟」の視聴率が先回「14.9%」だったそうですが、本当に「14.9%」である確率を出さなければ鵜呑みにはできないということです。

Excelの1000件のデータから100件の標本を見て見るだけで、約3%も誤差が出るのですから、テレビの視聴率などはにわかには信じられません。まして信長を殺害した歴史上の汚点のような男のドラマが、そんなに人気があるなんて疑ってかかる必要があるように思います。



キーワード