SSブログ

日本シリーズ4連勝(06) [確率統計]

Aチームの実力を連続変数として計算してみる

Aチームの実力を3パターンで計算してみたが、全部を網羅して計算したい。そうすると、Aチームの実力の期待値が計算できたり、0.5~0.6となる確率とか0.5以下のときの確率とか自由自在に計算できる。

ベイズの定理の復習と適用

まず、ベイズの定理の復習 P (A|B) = P(B|A) P(A) P(B) 各項目の意味は、
P (A|B)  …… Bという事象が起こったときに事象Aが起こる確率
P (B|A)  …… Aという事象が起こったときに事象Bが起こる確率
P(A)  …… Aという事象が起こる確率
P(B)  …… Bという事象が起こる確率

これを今回の日本シリーズ4連勝に当てはめてみる。変数名を連想しやすく変える。
P (x|W) = P(W|x) P(x) P(W) 各項目の意味は、
P (x|W)  …… Aチームが1勝、2連勝、3連勝もしくは4連勝したときに、Aチームの実力がxである確率
P (W|x)  …… Aチームの実力がxのとき、勝つ確率(それぞれの計算で1勝、2連勝、3連勝、4連勝する確率)
P(x)  …… Aチームの実力(勝率)がxである確率
P(W)  …… Aチームが勝つ確率(それぞれの計算で1勝、2連勝、3連勝、4連勝する確率)

P (W|x)  …… これを事前確率といって、事前確率(それぞれの実力xに対する勝つ確率)を仮定(計算)しておいて
P (x|W)  …… これを事後確率といって、対戦結果をみて真(?)の実力xを求める
多分、この解釈でいいと思う。

事前分布をグラフにしてみる

確率を連続変数として計算してみる。 まず、分かりやすくするため、Aチームの実力がxであるときの確率密度(確率を計算するための数値で確率とは違う)をyとして事前分布を図示する。連続変数とした段階で事前確率は事前(確率)分布、事後確率は事後(確率)分布となり期待値(平均値と言ってもいいか?)や、実力の範囲の確率(例えば実力が0.5~1とか)が計算できる。
Fig0601_y=1w520.png
一様分布だからその式は y = 1 ( 0 x 1 )
このグラフ(一様分布)はベータ分布でも描けるのだが、ベータ分布の一般式は下記のとおり。 y = C x α - 1 ( 1 - x ) β - 1 ( 0 x 1 ) ここで、
y  …… 右辺での確率密度
C  …… 全事象確率を1にするための調整定数
x  …… Aチームの実力(勝つ確率)
1-x  …… Aチームが負ける確率
α-1  …… Aチームの勝利数
β-1  …… Aチームの敗北数
対戦前の事前分布を表すのだから、勝利数も敗北数も0にするために
C=1
α=1
β=1
として y = 1 ( 0 x 1 ) となる。
ベータ分布にして便利な点は期待値(平均値、多分加重平均値だと思う)を簡単に計算できることがある。 ベータ分布の期待値Eの式は E = α α + β なので、一様分布の場合は E = 1 1 + 1 = 1 2 = 0.5 である。

1勝後の事後分布(1)

x = 0 なら必ず負けるので y = 0 x = 1 なら必ず勝つので y = 1 x = 0.5 なら勝敗の確率は五分五分なので y = 0.5 となる。つまり y = x ( 0 x 1 ) Fig0602_y=x_w384.png
となる。

事前分布と重ねると
Fig0603_y=x重書w520.png
下の水色の部分がAチームが勝った確率で上側の灰色の部分がAチームが負けた確率になる。水色の三角形の部分の面積はAチームの実力(勝つ確率)が0~1での第1戦目に勝つ(勝った)確率となるが、面積は底辺×高さ÷2となるので 1 × 1 ÷ 2 = 0.5 である。
第2戦へは勝った方だけが行くので、勝った方の確率の合計が1となるように調整(正規化)すると下図のとおり
Fig0604_y=2x_w520.png
式は y = 2 x これが1勝後の事後分布となる。

1勝後の事後分布(2)

念のためベータ分布でも計算してみる。1勝0敗だから C = 1 , α = 2 , β = 1 としてやる。
y = 1 × x α - 1 ( 1 - x ) β - 1 = x 2 - 1 ( 1 - x ) 1 - 1 = x 1 ( 1 - x ) 0 = x × 1 = x 上と同様に全事象の確率が1となるようにすると y = 2 x 期待値E E = α α + β = 2 2 + 1 = 2 3 である。
1勝しただけで、Aチームの実力(勝率)の期待値が 2 3 となるが、感覚的にはたった1勝でAチームはBチームに対して期待値で約6割7分の勝率を見込むとは盛りすぎではないかと思うが、ベイズ流の確率計算ではこうなるのでしょうがない。ベイズ流の主観確率では対戦前の事前確率分布の期待値が五分五分と思ってたが、対戦後は事後分布の期待値が約6割7分だと思うべきだとなる。
Fig0605_y=2xのE重心w520.png
この期待値というのは、平均値ではなく加重平均(重心)であり上のように期待値を支点としてやじろべえを作ると左右が釣り合うということになる。図で見ると感覚的に釣り合うように思えない。左に傾きそう。
で、左側が期待値 ( E ) 以下の確率 P ( 0 x E ) 、右側が期待値 ( E ) 以上の確率 P ( E x 1 ) はそれぞれ、 P ( 0 x E ) = 2 3 × 4 3 × 1 2 = 4 9 P ( E x 1 ) = ( 4 3 + 2 ) × 1 3 × 1 2 = 10 3 × 1 3 × 1 2 = 5 9 である。Aチームの実力(勝率)が期待値以上の確率の方が期待値以下よりも大きい(1.25倍)。こうなると期待値というのが感覚的に納得できない。
素人考えでは期待値は平均値となるべきで、図の左右の面積(確率)が等しい点、つまり確率0.5となる点ではなかろうかと。だから三角形の面積の計算で底辺×高さ÷2=0.5。そうなる底辺をmとする。高さは2mだから。  m  ×  2  m  ÷  2  =  0.5  m  = 0.5    0.7071 Fig0606_y=2xをmで分割w449.png
mは、いったい何なのだろう。平均値とは言えないのだろうな。中央値(median)かな?分からない。計算結果は、意外にもmの方が、期待値EよりもAチームが強いと見積もられている。
別の考えをして、今度はAチームの実力(勝率)がBチームより強いか、弱いかを確率で示すと x=0.5が五分五分だから左(弱い)右(強い)に分けて確率を求める。その結果が下図。
Fig0607_y=2xを4分割w520.png
たった1勝しただけでAチームの方が強い確率が弱い確率よりも3倍も大きくなる。たった1勝なのに。ベイズの定理を使って事後確率分布を計算していると自分では思っているのだが、この計算結果は、ちょっと感覚的になじめない。
取り敢えず、今回はここまで。次回2連勝から4連勝までの事後確率を計算する。
nice!(0)  コメント(0) 

nice! 0

コメント 0

コメントを書く

お名前:
URL:
コメント:
画像認証:
下の画像に表示されている文字を入力してください。

この広告は前回の更新から一定期間経過したブログに表示されています。更新すると自動で解除されます。