p. 3

HOME


3. 用いた検証法について


 今回用いた検証法のかんたんな説明をします。推計学の基礎知識をすでにお持ちの読者は、この章を飛ばして、次の第4章に進んで下さい。

カイ2乗検定
 実際に得られたデータの値と、本来あるべき値(期待値といいます。また、人数や個数など、一つ、二つと数えられるものについては、期待度数ともいいます)のくい違いを、たんなる偶然とみなしていいものかどうか、判定するときに使います。
 NHK紅白歌合戦(第1〜26回)に出場した歌手の例を、取りあげてみます(*7) 

<NHK紅白歌合戦第1回(1951年)〜26回(1975年)出場歌手血液型分布

血液型

日本人平均分布率(%)

出場者数(人)

期待値(人)

くい違い(人)

O型

30.7 %

61

50

9

A型

38.1 %

48

62

14

B型

21.8 %

28

36

8

AB型

9.4 %

26 

15

11

合計

100 %

163

163

0

 O型の出場者数は61人です。しかし、全出場歌手は 163人で、O型の人は日本人の31%ですから、本来であればO型の歌手は、163 x 0.307=約50人(期待値)のはずです。実際に得られた値と期待値のくい違いが、61 − 50=11人います。同様にして、A型は 14人、B型は 8人、AB型は 11人とくい違っています。
 さて、これらのくい違いは、偶然の結果によるものでしょうか、それとも、血液型が紅白出場という"一流"人気歌手になるのに影響した結果なのでしょうか。神ならぬ私たちには、分かるはずもありません。
 そこでどう考えるのかというと、まず、「血液型は、"一流"人気歌手になることには影響しない」という仮説(帰無仮説といいます)を立てます。すると、本来ならばO型は何人出場するはずだという期待値(50人)が分かります。他の血液型も同様です。むろん、影響を及ぼさなくとも、実際の各血液型の出場歌手数は期待値とは実際上くい違い、バラツキが生じます。しかし、あるバラツキの大きさ(上の例ではO型の 10人、A型の 14人など)が生じる確率は、計算できるのです。バラツキはカイ2乗というグラフの分布になることが、推計学によって分かっているからです。
 そこで、「血液型は影響しない」と仮説を立ててみると、現実の出場者数になるようなバラツキの起きる確率(正確に言えば、現実の出場者数のバラツキ以上のバラツキになる確立)は、何パーセントだと分かるのです。計算してみると、約0.2%、つまり、500回に1回の割合で起きるような事態です。ちょっとふつうでは起こりえない事です。したがって、最初の仮説「血液型は、"一流"人気歌手になるのに影響しない」は誤りである、つまり、「影響する」と結論できます。最初の仮説(帰無仮説)は「無に帰した」、つまり棄却されたのです。
 ちょうど、サイコロ遊びで、丁(偶数)の目が出れば自分が勝ち、半(奇数)では相手が勝つとなっていたとき、5回も続けて半が出れば(確率約3.1%)、暗黙の仮説「このサイコロはいかさまではない」を、否定するようなものです。
 しかし、「血液型は、"一流"人気歌手になるのに影響しない」という可能性が0.2%あるということは、「影響する」という結論が間違っている危険性が、0.2%の割合(危険率)であることを意味します。では、何パーセントで帰無仮説を棄却できるのかですが、場合によって違ってきます。犯罪現場に残された犯人の血痕と容疑者の血液の同一性や、親子関係の認定といった場合には、危険率を 1パーセントより小さくとらないと恐いものがあります。しかし、ここでは 10パーセントより小さければ棄却できるとみなして、危険率が10%より小さいデータは、血液型人間学の考察の対象としてもいいと、私は思います。
 ただし、「血液型が影響する」という表現は誤解を招きやすいのですが、正確には「血液型とある種の関係がある」ということだけを表しており、それ以上のことをカイ2乗検定は教えません。血液型が原因となっているという因果関係すら、カイ2乗検定そのものは示さないのです。「傘をさすことは、雨がふることに影響しない。」という帰無仮説を立てて、データをカイ2乗検定したところ帰無仮説を棄却できた、そこで「傘をさすから雨が降る」とは、ならないようなものです。まして、血液型のもたらすどういった気質が影響したかなどを推測する責任は、私たちの方にあるといえましょう。

 カイ2乗の計算の過程とその分かりやすい説明は、「統計のはなし」(大村平著、日科技連出版社)の 205ページから 215ページにかけてされています。表計算ソフトを利用して、計算過程をたどっていき、出てきたカイ2乗値を統計ソフトSTATISTICAの「確率分布の計算」「カイ2乗」に入れて、グラフを見ながら危険率p値を得るのが、理解しやすい手続きと思われます(*8) 

 たやすく危険率(p値)を得たいのであれば、表計算ソフトのたとえば「エクセル97」が利用できます。具体的な手順を示しますと――

1. 利用する「エクセル97」に、付属の「分析ツール」が組みこんであるかどうかを確認。(メニューバー上の「ツール」をクリックして、「分析ツール」があればよし、無ければ、「エクセル97」の入ったCDからインストールして下さい。)
 なお、「エクセル2002」では、上述1の手順は必要ありません。
2. 上記の表のように、それぞれの血液型の出場者数、61, 48, 28, 26の数字をセルに入力します。
3. それぞれの血液型について、本来であれば何人出場するはずだという期待値50, 62, 36, 15を、入力します。(計算式を一つのセルに入力し、それをドラッグしてコピーするのが早いでしょう。)
4. 計算結果を表示するセルを選択し(つまり、計算結果を表示しようとするセルの上にポインタを置いて左クリックし)、ツールバー上の「fx」をクリックし、関数の分類から「統計」を選び、関数名から「CHITEST」を選んで、OKをクリック。
5. 「実測値範囲」のところへは、61, 48, 28, 26の数字が書かれてあるセルをドラッグして選択することによって、それらのセル名を入力します。「期待値範囲」のところへは、50, 62, 36, 15の数字が書かれてあるセルをドラッグして選択することによって、それらのセル名を入力します。
6. 最後に、OKをクリックすれば選択したセルに計算結果の「0.0021...」が表示されます。
 もっとも、計算結果が「0」と表示されても、あわてないで下さい。危険率はパーセントではなく、少数で表示されますので、セルの少数表示桁数を少数第4位くらいにして下さい。

 ところで、カイ2乗の分布は連続した分布です。しかし、私たちが血液型問題で扱う量は人数ですから、1人、2人・・と整数の離散量です。したがって、つねに誤差を伴うのですが、データ数が少ないときにはその誤差が無視できなくなります。そのような場合は、直接検定法によるべきです(*9) 
 しかし、データ数が合計で50以上あれば、誤差の心配はしないでもいいのではないかと独断のもと、今回はカイ2乗検定で通すことにしました。この点、プロの方のご教示を得られればありがたいです。
 また、今回は両側検定は無意味ですから、片側検定のみを行なっています。


二項検定

 血液型全体を調べるのではなく、特定の血液型だけの多さ・少なさが偶然によるものかどうかをみたいときには、二項分布が利用できます。
 例えば、硬貨を投げたとき表の出る確率は 0.5です。硬貨を10回投げれば、そのうちの3回が表である確率は、

10C3 x 0.5の3乗 x (1-0.5)の(10-3)乗

となることが分かっています。「10C3」は、10個から3個とり出す組み合わせの数です。すなわち、

10C3=10!÷{3! x (10-3)!}

  =(10x9x8x...x1)÷{(3x2x1)x(7x6x5x...x1)}

  = 120

 一般に、ある試みをn回したとき、対象としている事柄Aのおきる確率をpとすれば、Aがr回おきる確率 P(r)は、

P(r)=nCr x (pのr乗) x {(1-p)の(n-r)乗}

となります。そして、確率pや試行回数nが与えられているとき、縦軸に P(r)の値、横軸にrの値をとってできるグラフで表されたものが、二項分布です。
 さて、ここに80人の日本人司会者がいて、そのうちO型は15人だったとします(*10)

血液型

日本人平均分布率(%)

司会者数(人)

期待値(人)

O型

0.29 %

15

23

A型

0.39 %

25

31

B型

0.22 %

28

18

AB型

0.10 %

12

8

合計

100 %

80

80

 O型の日本人平均分布率を 29%(*11)とします。すると、期待値は 80 x 0.29 = 23人ですので、15人はかなり少ないようです。このことを、二項分布を用いて調べてみます。
 血液型は、司会者を職業選択するさいに影響を及ぼさなかったと仮定します(帰無仮説)。するとこのばあい、いわば無数の日本人司会者の中から一人を選ぶ試みを80回したとき、0.29の確率で起きる事態(O型の司会者を選ぶ事態)が15回起きたことと同じになります。ある特定の回数回起きることの確率は、二項分布にしたがいますから、エクセルで計算できます。O型が一人もいない確率、つまり、0回起きる確立も、また、1回、2回、・・起きる確立もそれぞれ計算できますし、一挙に0回から15回までの確率の和を計算することもできます。エクセルでの具体的な手順を示しますと――

1. 計算結果を表示するセルを選択し、ツールバー上の「fx」をクリックし、関数の分類から「統計」を選び、関数名から「BINOMDIST」を選んで、OKをクリック。
2. 「成功数」に15を入力。
3. 「試行回数」に80を入力。
4. 「成功率」に0.29を入力。
5. 「関数形式」に1を入力。(成功数 0回から15回までの確率の和を、求めるため。もし、15回だけの確率を求めたいのであれば、0を入力。)
6.「OK」をクリックすれば、選択したセルに計算結果の「0.0253...」が表示されます。

 計算結果が 約2.5%だということは、「血液型は、司会者を職業選択するさいに影響しなかった」という帰無仮説のもとでは、O型が80人中15人以下(15人を含む)になる確率が 2.5%だということです。ところが、現実に 2.5%という大変少ない確率の事態が起きているのですから、これは最初の帰無仮説が誤っていた、つまり、「血液型は影響した」と考える方が合理的だ、という結論になります。
 今回は、有意水準(帰無仮説を棄却できる危険率)を、少し甘めに 10%にしています。すると、ある血液型の人数が、期待値より大きい場合と小さい場合がありえますから、10%を両側に分けた片側 5%が有意水準となります。


二項分布の正規近似

 例えば、交通事故の加害者 1359人中、O型が 486人いたとします(*12) 割合でいえば、

486÷1359x100= 35.8(%)

となり、O型の日本人平均分布率 29%より、だいぶ多いようです。さてこれを、血液型による有意性を二項分布を使って調べたいのですが、エクセルに入力しても、数値が大きくなりすぎてエラーになってしまいます。 そこで、正規分布で代用することになります。
 つまり、確率 pでおきる事柄Aを n回試みたとき、Aが r(= 0, 1, 2, 3, ..., n)回おきる確率 P(r)は、二項分布となりますが、nが無限大のときは正規分布となることが知られています。二項分布と正規分布は親戚のようなものであり、nが十分大きければ、二項分布は正規分布で代用できるのです(*13)  
 正規分布は、その平均と標準偏差によって表すことができますが(つまり、決定される)、今話題としている二項分布との関係では、次のようになることが知られています。

平均=np= 1359 x 0.29= 394
分散=np(1-p)= 1359 x 0.29 x (1−0.29)=280
標準偏差=ルート280= 16.7

 そこで、平均 394、標準偏差 16.7の正規分布で代用します。「エクセル97」での具体的な手順を示しますと――

1. 計算結果を表示するセルを選択し、ツールバー上の「fx」をクリックし、関数の分類から「統計」を選び、関数名から「NORMDIST」(正規分布)を選んで、OKをクリック。
2. 「X」に 485.5(つまり、実際のO型の人数486と、それより1人少ない485の中間の値)を入力。
3. 「平均」に 394を入力。
4. 「標準偏差」に 16.7を入力。
5. 「関数形式」に 1を入力。(累積分布を求めるため。)
6.「OK」をクリックすれば、選択したセルに計算結果の「0.99999998」が表示されます。(表示するセルの幅を広く取り、また、小数第8桁以上が表示されるようにして下さい。)
 すなわち、「O型が0人いる場合の確率+1人いる場合の確率+2人いる場合の確率+ . . . +485人いる場合の確率=0.99999998」ということです。
7. しかし、得たいのは、486人以上(486を含む)確率の累積ですから、「1−0.99999998= 0.00000002」が求める確率(危険率)です。

 これはもう、驚異的に小さい危険率ですから、「交通事故加害にO型が多いのは、偶然ではない」といえます(むろん、データが正確だとすれば)。


分割表による一様性の検定

 衆議院議員と知事の血液型分布が、下の(表1)のようだったとします(*14)

(表1)

実測値

O型

A型

B型

AB型

合計a

衆議院議員(人)

155

122

75

60

412

知事(人)

12

22

7

1

42

合計b

167

144

82

61

454

 この2つの職種のあいだに、血液型分布の有意な差はあるのでしょうか。つまり、一方の職ではある血液型が多く、他方の職では別の血液型が多いというのは、たんなる偶然ではない、といえるのでしょうか。
 それを調べるのに、血液型の日本人平均分布率を使って、それぞれの職種ごとに各血液型の期待値をだし、それぞれの職種ごとにカイ2乗検定しても、意味はありません。それでは、それぞれの職と日本人一般とのあいだに、有意な差があるかどうかが、分かるだけです(それも、興味深いことではありますが)。このような場合には、「分割表による一様性の検定」を用いますが、じつはカイ2乗検定を拡張してくみ入れたものです。
 次のように考えていきます。

1)「2つの職種間の血液型分布の差は、たんなる偶然によるものである」という帰無仮説をたてます。すなわち、本来あるべき各血液型の人数(期待値)を、2つの職種それぞれについて計算して出し、「その期待値と、(表1)で表されている実際の人数の差は偶然による」との帰無仮説をたてるのです。
2) そして、この帰無仮説が棄却(否定)できるかどうかを、調べることになります。

 さて、まず期待値を計算しますが、衆議院議員のO型からはじめましょう。

衆議院議員O型の期待値=衆議院議員の合計数 x O型の平均分布率

 上の式で、衆議院議員の合計数には、合計aの列にある 412を代入します。O型の平均分布率は、あくまで2つの職種どうしを対比しているのですから、日本人平均分布率は使えず、2つの職種を合わせた集団内の平均分布率になります。すなわち、

O型の平均分布率=合計bの行にある 167 ÷ 全体合計の 454
            = 0.37

 したがって、

衆議院議員O型の期待値= 412 x 0.37
           = 152.4

 一般的にいえば、

ある職種のある血液型の期待値=合計a x 合計b ÷全体合計

という式になります。こうして計算していけば、下の期待値の(表2)が得られます。(表計算ソフトで連続して計算し、途中で四捨五入をしていないので、上記計算の「152.4」が「151.6」となっています)。

(表2)

期待値

O型

A型

B型

AB型

合計

衆議院議(人)

151.6

130.7

74.4

55.4

412

知事(人)

15.4

13.3

7.6

5.6

42

 (表1)で表された実際の人数と、(表2)の期待値のくい違いは、カイ2乗検定のときと同じように計算でき (*15)、それはカイ2乗分布に近似します。そこで、 (表1)と(表2)を使って、カイ2乗検定をします。エクセル97を使って、具体的な手順を示しますと――

(1) 計算結果を表示するセルを選択し(つまり、表示しようとするセルの上にポインタを置いて左クリックし)、ツールバー上の「fx」をクリックし、関数の分類から「統計」を選び、関数名から「CHITEST」を選んで、OKをクリック。
(2) 「実測値範囲」のところへは 、(表1)の 155, 122, . . . 7, 1の数字が書かれてある 8つのセルをドラッグして選択することによって、それらのセル名を入力します。「期待値範囲」のところへは、(表2)の 152, 131, . . . 8, 6の数字が書かれてある 8つのセルをドラッグして選択することによって、それらのセル名を入力します。
6. 最後に、OKをクリックすれば選択したセルに計算結果の「0.010」が表示されます。

 計算結果が 0.010になったということは、「血液型分布の2つの職種間の差は、たんなる偶然によるものである」という帰無仮説のもとでは、(表1)の実際の人数と、(表2)の期待値のくい違いになるような確率は、1.0%だということです。ところが、現実に 1.0%という大変少ない確率の事態が起きたのですから、これは最初の帰無仮説が誤っていた、つまり、「偶然ではない」と考える方が合理的だ、という結論になります。
(ただ、データ数が少ないときには、分割表による一様性の検定においてもカイ2乗検定は使えず、直接検定法によるべきです。直接検定法の説明はやっかいなので、省略します。)


調整化残差の吟味

 上記の一様性の検定によって、衆議院議員と知事のあいだには血液型分布において、偶然ではない違いがあることが分かりました。では、その違いは何型によっておきたのでしょうか。

(表1)

実測値

O型

A型

B型

AB型

合計

衆議院議員(人)

155

122

75

60

412

知事(人)

12

22

7

1

42

(表2)

期待値

O型

A型

B型

AB型

合計

衆議院議(人)

151.6

130.7

74.4

55.4

412

知事(人)

15.4

13.3

7.6

5.6

42

 (表1)と(表2)を見比べますと、感じとしては、A型とAB型でそれぞれ実測値と期待値がかなりくい違っており、この2つの血液型が原因のようです。この推測が妥当かどうかを知るには、

1) 「8つの項目(衆議院議員O型、衆議院議員A型、・・・知事B型、知事AB型)のいずれも、実測値と期待値のくい違いは偶然による」という帰無仮説をたてます。
2) 実測値と期待値のくい違いを、各項目ごとに計算します。
3) 上記の帰無仮説のもとで、各項目ごとに、そのくい違いのおきる確率を計算します。
4) その確率が、10%以内であれば(きびしく見るときには 5%あるいは 1%)、おきる可能性の少ないことが実際に起きているのですから、帰無仮説に無理があったと考える方が合理的です。したがってその項目は、「実測値と期待値のくい違いは、偶然ではない」といえます。

 さて、3)の「くい違いのおきる確率」をどうやって求めるかですが、くい違いの分布が、平均0、標準偏差1の正規分布(基準化した正規分布)に近似するようだと、たいへん好都合です。というのも、そのような正規分布では、さまざまな計算が可能だからです。
 くい違いがそのような正規分布に近似すれば、例えばくい違い(「実測値−期待値」とします)が 2.5より大きくなる確率は、0.0062%だとすぐ計算できます。また、くい違いが -1.64から +1.64のあいだにおさまる確率は、0.9と分ります (*16)から、-1.64より小さいか、+1.64より大きい確率は、1−0.9 = 0.1(10%)とも計算できます。
 そこで、実測値と期待値のくい違いの分布を、上記のような正規分布へと、次のようにして形を整えていきます(*17)

1) まず、「標準化残差」を各項目ごとに計算します。

標準化残差=(実測値−期待値)÷(ルート期待値)

 例えば、衆議院議員O型ですと、

標準化残差=(155−151.6)÷(ルート151.6)
     = 0.24

2) つぎに、標準化残差の分散を各項目ごとに計算します。

分散=(1−実測値の行の合計÷全合計)x(1−実測値の列の合計÷全合計)

 衆議院議員O型ですと、

分散=(1− 412÷454) x (1− 167÷454)
  = 0.058

3) 上記の「標準化残差」とその「分散」を使って、「調整化残差」という、その分布が基準化した正規分布に近似するものを、各項目ごとに計算します。

調整化残差=標準化残差÷(ルート分散)

 衆議院議員O型ですと、

調整化残差= 0.24÷(ルート0.058)
     = 1.0

 このようにして、すべての項目の調整化残差をだしますと、下の表になります。(表計算ソフトで連続して計算し、途中で四捨五入をしていないので、上記計算の「1.0」が「1.2」となっています)。

O型

A型

B型

AB型

衆議院議員

1.2

-3.0

0.2

2.2

知事

-1.2

3.0

-0.2

-2.2

 絶対値が 1.64より大きい項目(-1.64から +1.64のあいだにおさまっていないもの)が、A型とAB型の列に見られます。上述したように、-1.64より小さいか、 +1.64より大きい確率は0.1(危険率10%)なので、最初にたてた「くい違いは偶然による」という帰無仮説を、棄却します。すなわち、A型とAB型の血液型では、衆議院議員と知事の職種の人数に、偶然以上の違いがある(有意差がある)と、推定できます。

--------------------------

(*7) 『血液型活用学』103-104ページ、サンケイ出版、1976年。(戻る)
(*8) 「STATISTICA」は、学習用版が『STATISTICAによるデータ解析』(武藤眞介著、朝倉書店)に付いています。同書には、危険率p値の出し方が66ページに書かれています。なお、自由度は、血液型4タイプを対象としているときは、4−1=3の3になります。また、「1−累積p」の項目にチェックを入れる必要があります。(戻る)

(*9) 『統計解析のはなし』(大村平著、日科技連出版社)の113ページ。(戻る)

(*10) 『血液型活用学』103-104ページ。(戻る)

(*11) この分布率は、文献によって多少の違いが見られます。したがって、計算結果が微妙なものとなるときは、2種類以上の分布率を併用する必要があります。今回は、「平凡社 世界大百科事典 第2版」によりました。なお地域差もところによって見られるようです。(戻る)

(*12) 『血液型と性格ハンドブック』32ページ、サンケイ出版、1981年。(戻る)

(*13) 『統計解析のはなし』(大村平著、日科技連出版社)の79-82ページ。(戻る)

(*14) 『血液型エッセンス』15-19ページ、サンケイ出版、1977年。(戻る)

(*15) この「くい違い」の式については、例えば『入門 統計解析法』(永田靖著、日科技連出版社)237ページを参照して下さい。(戻る)

(*16) 正規分布については、例えば『統計のはなし』(大村平著、日科技連出版社)の59-68ページを参照して下さい。(戻る)

(*17) 例えば『すぐわかるEXCELによるアンケートの調査・集計・解析』(内田治著、東京図書)159-160ページに、手順が解説されています。(戻る)


BACK

TOP

NEXT