PAGE TOP

関連情報

印刷する

共分散と相関係数

さぼ郎
変数が2つある時に、その2つの変数の関係を見ることができるのが「共分散」になります。

例では体重と身長の関係を2つの変数として考えてみます。

なぜ、2つの変数かというと、変数が2つならば平面のXY座標にプロットして見ることができるからです。

頓活
頓活

数値を入力するのも大変なので、身長も体重も乱数を使って値を生成していますから、乱数に偏りがなければ相関を見ることはきっとできませんが、ご容赦ください。

乱数は「RANDBETWEEN」を使っています。漢字入力にせずアルファベット入力にしておいてExcelの所定のセルで「=rand」くらいまで入れると候補として「RANDBETWEEN」が現れますので、そこで「tab」キーを押すと、計算式がセルに表示されますので、そこで「開始値」と「終了値」をセットします。

頓活

もっともらしくするために、10倍して10で割っています。

「=RANDBETWEEN(1500,1800)/10」
体重は「=RANDBETWEEN(500,800)/10

共分散を計算するために平均(AVERAGEと、相関係数を計算するために標準偏差(STDEV.P)で値を出しておきます。

図でいうと、「C26」「D06」が、身長と体重の標準偏差です。

共分散は平均からの差を身長と体重で乗算し値を加算して、データ件数で除算します。

ようするに「(身長1ー身長平均)✕(体重1ー体重平均)」をデータ件数分加算し、その合計値をデータ件数で割るということになります。

共分散は、それぞれの値の触れ方を見ているので、大きな値の共分散は、それなりに大きな値になりますし、小さな値の共分散はそれなりに小さな値になります。

そこで標準化するために標準偏差を使うことになります。

相関係数=共分散÷(身長の標準偏差✕体重の標準偏差)

で求めることができます。

この値が「-1」に近ければ「負の相関」が強く、「+1」に近ければ「正の相関」が強いことになります。

サンプルでは乱数を使っているので、「0」に近い値になる傾向が強く、その場合は「相関がない」ことにならざるをえません。

頓活
頓活

ちなみに、身長と体重に意識的な相関を付けてみたら、相関係数が「1.0」でまさしく正の相関になっています。

ただ、相関とは、あくまでも数値分析としての傾向でしかなく、それが「たまたまの相関なのか」、あるいは、「相関が出なければならないのに相関が出ていない」ことで、さらなる分析が必要になることもあります。

AIでは、相関が出ていないことに対しては素通りになってしまいます。

AIを使ってビッグデータからパターンを抽出したとして、そこから人間を理解しようとしても、「そうである」こともあれば「そうではない」こともあるから人間は面白いわけで、デジタル社会が進むほどに、人間としての「気まぐれ」「不自然」「不本意」「不条理」「ムラ」の面白さが際立ってくるような社会になるような気がしています。

コロナウイルスで、お金をばらまくときなどに、個人番号(マイナンバー?)で国民がきっちり管理できていれば、それなりに使いみちがあったかもしれませんが、そうした社会は中国のようなスコア社会に必ずなっていくと思うので、今のようないい加減さは絶対必要かもしれません。

頓活

Tカードでポイントの代わりにデータが「カルチャ・コンビニエンス・クラブ」に集められて、分析加工されて売られているわけで、捜査機関(警察や検察庁)から捜査関係事項照会書が出された際にも会員情報を提供していたとのことでもあります。

マイナンバーも必ず諸刃の剣になることは必至です。クワバラクワバラ。



キーワード