確率統計：星取表シミュレーション：So-netブログ

	ブログをはじめるログイン

Gen0012(08)boxplotで能力値検討　 [確率統計]

MAクラスの能力値（Tt）の分布の世代変化を箱ひげ図（Box-whisker plot）にして観察する。

注）*1)平忠正、*2)平経俊、*3)源範頼、*4)平長盛
箱ひげ図（Box-whisker plot）の見方をみると箱の中に引いてある横線は中央値であり、平均値ではない。なるほど、平均値は箱の中心になるのでわざわざ表示する必要はない。中央値ならば、それが中央からずれていれば分布の形が左右対称ではないということが分かる。第３世代（Gen0003）～第５世代（Gen0005）の中央値が下側にあるということは、Tt値が大きい一部のメンバーが平均値を押し上げているということで分布の形がTt値の大きい方に尾を引いているということが分かる。
箱はデータがTtの値が小さい順に並べ４等分したとき、下から４分の１～４分の３の順位のメンバーが入っている値の範囲を示している。
箱から上下に引かれた破線の頂点にある横線は、最小値と最大値を示すが、それは下側境界点と上側境界点の内部にあるデータに限られる。それを外れた値は外れ値となり丸で示す。
下側境界点と上側境界点は箱の高さ（全データの中間的な50％が入るデータの範囲）の1.5倍箱から離れた点である。

MAのグラフを見ると、世代ごとに能力値は高くなる（成長している）。能力値のばらつきが大きくなっている。
外れ値を観察すると外れ値は上側にあり、他より能力がかなり高いメンバーがいるということを示している。ならば、優勝してもいいようなものだが、
第１世代（Gen0001）では、https://ykdn.blog.ss-blog.jp/2019-09-16　源為宗（優勝）、源範頼（優勝同点）、平忠清（優勝同点）だった。 *1の平忠正は7勝8敗と負け越し、*2の平経俊は9勝6敗であった。
第３世代（Gen0003）では　https://ykdn.blog.ss-blog.jp/2019-09-16　源為宗（優勝）、源範頼（優勝同点）、平忠清（優勝同点）であり、*3の源範頼は外れ値にふさわしい成績であった。
第４世代（Gen0004）　https://ykdn.blog.ss-blog.jp/2019-09-28　では、源為朝が優勝しており、*3の源範頼は9勝6敗、*4の平長盛も9勝6敗と外れ値のメンバーとしては期待外れの成績であった。
第５世代（Gen0005）https://ykdn.blog.ss-blog.jp/2019-10-12　では、平忠盛（優勝）、平正綱（優勝同点）であり、*3の源範頼は5勝10敗と大きく負け越した。
以上能力どおりの成績とはなったおらず、「勝負は時の運」、「勝負は水物」というにふさわしいものとなっている。つまりは、現実でもこのような偶然の力によるものがあってもいいことを意味している。
第10世代（Gen0010）https://ykdn.blog.ss-blog.jp/2019-12-05　では、*4の平長盛は6勝9敗であり、https://ykdn.blog.ss-blog.jp/2019-12-06　「対戦前の実力（能力パラメータ）値による平長盛の平均勝率は0.683126（10.2勝 4.8敗）。乱数による偶然の力が現れている。」としている。
第11世代（Gen0011）https://ykdn.blog.ss-blog.jp/2019-12-13でやっと*4の平長盛が優勝した。でも、今までの結果を踏まえると実力があったから優勝したのか、偶然の力により優勝したのか成績からは区別できない。成績から能力を評価することの難しさをこのシミュレーションは示していると思う。なお、*3の源範頼は11勝4敗の成績であった。
第12世代（Gen0012）https://ykdn.blog.ss-blog.jp/2019-12-20　では、*4の平長盛、*3の源範頼ともに11勝4敗の成績で、優勝は源為朝であった。
以上、外れ値となるような優れた能力であっても優勝できたのは11回中１回のみで優勝同点も11回中１回と能力と成績には強い関連はなかった。

次に上下のクラスとメンバーが入れ替わるJ1について検討する。

注）*1)平重義、*2)平直材、*3)源満末
第５世代（Gen0005）　https://ykdn.blog.ss-blog.jp/2019-10-16　の*1の平重義は前世代J2で14勝１敗の成績で優勝し、ここでは10勝5敗であった。
第６世代（Gen0006）　https://ykdn.blog.ss-blog.jp/2019-10-27　の*1の平重義は8勝7敗とやっと勝ち越しの成績であった。
第７世代（Gen0007）　https://ykdn.blog.ss-blog.jp/2019-11-09　で*1の平重義がやっと優勝して次世代はMAに昇格する。
第８世代（Gen0008）https://ykdn.blog.ss-blog.jp/2019-11-18　は外れ値は*2の平直材であったが、8勝7敗と平凡な成績であった。
第10世代（Gen0010）　https://ykdn.blog.ss-blog.jp/2019-12-06　では*3の源満末がJ1から昇格して優勝した。
第11世代（Gen0011）https://ykdn.blog.ss-blog.jp/2019-12-14　では、*3の源満末が大きく離れた値だったが優勝はできなかった。次世代はMAに昇格するのでJ1での外れ値には登場しない。*1の平重義はMAから降格して今世代で優勝し次世代はMAに再昇格する。
J1は成績優秀者がMAに昇格することで外れ値が消える傾向にある。
*1の平重義が良い成績をなかなか上げられずMAに昇格できなく３世代連続して外れ値として登場し、またMAから陥落することによりJ1では能力が外れ値となり11回中４回も登場した。

MAとJ1のグラフを重ねて比較する。

M1とJ1との差が徐々に開いてきた。能力が低くMAから降格するべき者は既に降格してしまっていると思われるので、このぶんだとMA下位者とJ1上位者の入れ替えが繰り返し行われMAメンバーが固定化されるのではないだろうか。

2019-12-29 09:45 nice!(0) コメント(0)
共通テーマ：趣味・カルチャー

Gen0010(08)F検定を勝敗分布に使う　 [確率統計]

前回ハートレイ検定でGen0001～Gen0010をまとめて検定すると等分散の仮定が棄却された。ではどの世代で分散に差があったのか
(01) Gen0001とGen0002を比較
(02) Gen0001とGen0003を比較
　　　...
(09) Gen0001とGen0009を比較

(10) Gen0002とGen0003を比較
(11) Gen0002とGen0004を比較
　　　...
(45) Gen0009とGen0010を比較
こんなに沢山比較をすると偶然有意差がでるのは当たり前で「ボンフェローニ補正」を使わなければならない。上の例では45検定あるのだから５％の有意水準で行う検定では両側検定なので0.05÷2÷45≒0.00056を各検定の有意水準とするということ。有意水準１％なら0.00011にする。
でも、予想では、能力値の成長とメンバー入れ替えのため少しずつ分布に差が出て、そのうち定常状態になるというものであるから取り敢えずGen0001の初期値のパラメータによる対戦成績と次世代以降の対戦成績の分散に差があるかどうかを調べたいので両側検定をする。
(01) Gen0001とGen0002を比較
(02) Gen0001とGen0003を比較
　　　...
(09) Gen0001とGen0009を比較
をする。従って0.05÷2÷9≒0.0028又は0.01÷2÷9≒0.00056を各検定の有意水準とする
Rで計算してみると
var.test(Gen0001, Gen0002)
F = 0.48387, num df = 29, denom df = 29, p-value = 0.05519

var.test(Gen0001, Gen0003)
F = 0.51331, num df = 29, denom df = 29, p-value = 0.07769

var.test(Gen0001, Gen0004)
F = 0.50562, num df = 29, denom df = 29, p-value = 0.07131

var.test(Gen0001, Gen0005)
F = 0.26214, num df = 29, denom df = 29, p-value = 0.000553 (*)

var.test(Gen0001, Gen0006)
F = 0.75419, num df = 29, denom df = 29, p-value = 0.4521

var.test(Gen0001, Gen0007)
F = 0.22095, num df = 29, denom df = 29, p-value = 0.0001126 (**)

var.test(Gen0001, Gen0008)
F = 0.36388, num df = 29, denom df = 29, p-value = 0.008175

var.test(Gen0001, Gen0009)
F = 0.39823, num df = 29, denom df = 29, p-value = 0.01566

var.test(Gen0001, Gen0010)
F = 0.34884, num df = 29, denom df = 29, p-value = 0.005947

となった。　p値の右側に (*) があるのは、0.05÷2÷9≒0.0028で有意、 (**) は0.01÷2÷9≒0.00056でも有意を示す。
頻度グラフを再掲する。
勝敗分布Gen0001-0010w646.png

むう。これでは偶然かどうか判断しきれない。予想では少しずつ分布に差が出て、そのうち定常状態になるのだから途中から有意差が連続して出てほしい。そうでなければ、たまたま出たのかどうか区別できない。
シミュレーションでは対戦前の能力値が分かっている。対戦前の能力値分布で分散に差が出ているはずなのでそれが成績にどう反映されるかを統計学的に検討したかったのだが、統計学は役に立っていないように思われる。
そもそも、能力値の差が微小のため成績に顕著な差が現れていないという可能性もある。
偶然の力で優勝している例を見てきており、Gen0007MA序列15位源頼賢の15戦全敗も偶然の力による（対戦前の実力（能力パラメータ）値による源頼賢の平均勝率は0.379139（ 5.7勝 9.3敗）。これで全敗するとは意外だった。）と思われるのだから、能力値が成績にあまり強く関与していないことを示しているのかもしれない。

取り敢えず今後シミュレーションを重ねて、成績分布に大きな差が出てきたときに宮城リョータ視点で能力値の分布を検討してみる。

2019-12-12 06:40 nice!(0) コメント(0)
共通テーマ：趣味・カルチャー

Gen0010(07)ハートレイ検定を勝敗分布に使う　 [確率統計]

ハートレイの等分散性検定

MAクラスでの対戦成績について勝ち星の分布に世代間おいて差があるかどうか検討してみる。
MAクラスのメンバーの能力値は最初は初期設定値であるが、１世代ごと成績下位のメンバーがJ1クラスに陥落し、J1クラスの成績上位メンバーが昇格することにより変動している。
その変動が統計学的に検出できるかどうかを検討する。
平均値は使えない。どの世代でも平均値は7.5勝7.5敗である。中央値も７勝か８勝でこれも使えない。
そこで分散を検討する。
検討前の予想では、能力値の成長とメンバー入れ替えのため少しずつ分布に差が出て、そのうち定常状態になるというものである。
さて、統計学的検討をするまえに度数分布のグラフを作り鑑賞する。
勝敗分布Gen0001-0010w646.png

（S²は不偏分散である。）
Gen0007MAが一番バラツキが大きいように見える。これは偶然なのだろうか、又は能力値分布に異常があったのか。統計学的には不偏分散に利用者が定めた有意差があるかどうかを示すだけで、偶然かどうかは分からない。通常ならばそこで終わるのだが、このシミュレーションでは能力値が分かるのだから、偶然かどうかが分かるはずだ。宮城リョータ視点で成績を見ることができるのである。最後の手段としてこれを使う。
グラフを見るとGen0001MAは能力が初期値であるのでこのバラツキを初期値としていいだろう。成長に従って上位下位との差が広がりバラツキも大きくなるだろう。グラフの雰囲気ではGen0001MAは他の世代とバラツキが異なっている気がする。

世代間に分散の差があるかどうかを検定するのには２つの考え方がある。
１　２つの世代を比較し分散の差の有無を検定する
２　複数の世代をまとめて比較し分散の差の有無を検定する

１の方法をGen0001～Gen0010までで具体的に考えると
(01) Gen0001とGen0002を比較
(02) Gen0001とGen0003を比較
　　　...
(09) Gen0001とGen0009を比較
(10) Gen0002とGen0003を比較
(11) Gen0002とGen0004を比較
　　　...
(45) Gen0009とGen0010を比較
こんなに沢山比較をするとき有意水準５％とするのは論外。本当は差がなくても当然のように偶然有意差があると判定されるものが出てくる。有意水準１％でも偶然有意差があると判定されるものが出るだろう。ということは、差が偶然なのかどうか判断できなくなるので検定する意味がない。
こういったとき、多数の検定をするときには「ボンフェローニ補正」が使われる。これは簡単で単に有意水準を検定回数で割るというもの。今回の例では45検定あるのだから５％の有意水準で行う検定では0.05÷45≒0.0011を各検定の有意水準とするということ。有意水準１％なら0.00022にする。

検定を使うとき、
１　本当は有意差があるのに検出されないと困る
２　本当は有意差がないのに検出されると困る
のどちらの立場に立つかで使い分けをする必要がある。今回は、メンバーの能力値に世代間の差がありその結果として成績に差があり、それは偶然の可能性が少ないということを言いたいから２の立場で検定する。
星取表シミュレーションをやってきて偶然の力を目の当たりにしているのでこの立場を採用するのは当然である。

そもそも２の立場でまずGen0001～Gen0010全体で勝ち星の分布に差があるかどうかを検定すれば良い。つまり、どれとどれがと特定できなくてもとりあえず差があるのかないのかを知りたい。平均値はどの世代でも7.5勝7.5敗なので分散の差異を調べるだけでよい。各世代の人数が同数なので「ハートレイの検定」で済む。

ハートレイの検定はGen0001～Gen0010までの勝ち数の各不偏分散について最小値を最大値で割った値(F_max)を使って検定する。全く各不偏分散に差がなければ最小値と最大値は等しいのでF_max=1となり、最小値と最大値の差が広がるとF_maxが大きくなる。F_maxの数表を見てそれよりF_maxがそれより大きければ有意差ありとなる。

今回の場合
最小値　2.33
最大値 13.28
F_max = 5.69957
df（水準内の自由度） = 29
k（水準数）= 10
F_maxの数表から
上限5%点 (df=30, k=10) 3.27
　　　　（df=20, k=10） 4.35
上限1%点 (df=30, k=10) 3.97
　　　　（df=20, k=10） 5.57

有意差ありとなった。Gen0001～Gen0010までまとめて検討すると等分散仮定は棄却された。
最初の度数分布グラフを見た段階で等分散ではないという感覚はつかんでいたので統計学的にもその感覚が支持されたということ。

2019-12-11 06:22 nice!(0) コメント(0)
共通テーマ：趣味・カルチャー

日本シリーズ４連勝(09)　[確率統計]

偶然か実力どおりかは分からない

　一方が４連勝したからといって実力に大きな差があるとは断定できない。
　最初に計算したとおり、実力差が無くともその確率は8分の1で0.125もある。
　ただ、ベイズの定理を使った主観確率の立場では、対戦前の事前確率が五分五分の実力であっても４連勝後は連勝したチームの実力（相手に対する勝率）は期待値として６分の５で約８割３分の勝率と見積るべきということだ。
　対戦前は五分五分と思っていても４連勝後はおおよそ８：２で４連勝したチームが有利だろうと見積もるべきとなる。
　ところで、知りたいのは４連勝が偶然か実力どおりだったかということで期待値以上の確率は0.5981であると言われてもしょうがない。とどのつまり結果から確率を計算しても真の実力は分からないということだ。
　良く言われることで、「事故の原因がそれである確率は95％ということは分かりましたが、結局この事故はその９５％で起きた事故ですか？それとも５％の方ですか」がある。だから、それが分からないから確率なんだけど。統計学は後知恵統計学で予言ではない。確定診断ができるものではない。この辺が理解してもらえないことだ。

　たとえば、サイコロを転がし「１よ出ろ」と言って１が出る確率は６分の１。よくあることで「運がいいな」で終わる。次に「４よ出ろ」と言って４が出る確率も６分の１だが、２回連続して希望の目が出る確率は36分の１で0.0278。確かに珍しいが、これがＴＶ番組なら「流石スター！持ってますね」という流れになる。次に「２よ出ろ」と言って２が出たら、３回目の独立試行の確率は６分の１だが、３回連続希望の目を出す確率は、216分の１（0.0046）となる。ディレクターなら悩むのではないだろろうか。このまま放送するとやらせだと思わないか？今のはＮＧ扱いにしてもう一度振らせるべきではないか。
　視聴者の立場では、３連続希望の目が出たとき「やらせだ、編集している」と思うのではないだろうか。確率0.0046だからそう思っても不思議ではない。ところが、３回目に目を外した映像を見たとき視聴者はディレクターの判断で振りなおしさせて目を外させたと思うだろうか、多分思わないだろう。視聴者は結果を見てもそれが真実かどうかは確率論をもってしても正確には判断できない。
　しかし、番組制作者側は真実を知っている。確率0.0046の事象が起きたのかそうではないのか。まるで神の視点だ。

宮城リョータ視点

　スラムダンクというバスケットボール漫画がある。
　主人公の桜木花道（高校1年生）は抜群の身体能力、運動神経を持ち監督に「10年に１人の逸材」と評価されている。桜木花道は高校に入ってからバスケを始めたド素人であるが、中学校からバスケをしているチーム内ライバルの流川楓（これも「10年に１人の逸材」）とプレーしているうちにどんどん上達していく。彼をスカウトし、練習に付き合ってた同学年の女子から彼の上達の速さは「まるで新幹線のよう」と嫉妬された。

　その桜木がインターハイで全国屈指の強豪校のエースプレーヤ沢北栄治（インターハイ後アメリカにバスケ留学する。）に対し素人考えのディフェンスをしたところ、予想外のプレーのため沢北はオフェンスチャージングのファールを取られた。このことで沢北は桜木を警戒することになった。
　桜木のチームメイトの宮城リョータは「しめしめ、沢北が警戒している。あのプレーは、10回に１回しか成功しない。その１回が最初に来ただけなのに」とさらに沢北を攪乱する。
　沢北は桜木のディフェンスの成功率は結果から推定するしかない。だから警戒する。
　宮城リョータは一緒に練習している桜木のプレーから成功率を10分の１と知っている。
　この宮城リョータ視点を体験するシミュレーションを考えた。

星取表シミュレーション

　プレーヤの実力をパラメータで与え対戦させる。そこで優勝したプレーヤがまぐれで優勝したのか実力抜群だったのかをパラメータを調べると分かる。大相撲なら15戦全勝優勝した力士と他の力士とはどの程度の実力差があったのか、まぐれだったのかを結果を見た後で、パラメータを調べると宮城リョータ視点で知ることができる。
　こういったプログラムを作って次回以降楽しみたい。

2019-09-06 20:08 nice!(0) コメント(0)
共通テーマ：趣味・カルチャー

日本シリーズ４連勝(08)　[確率統計]

ベイズ推定の逐次合理性を利用して４連勝まで事後確率を計算してみる

ベイズ推定の逐次合理性というものがあって、順々に計算できるらしい。
つまり
事前分布→事後分布
として
対戦前→１勝後
１勝後→２連勝後
２連勝後→３連勝後
３連勝後→４連勝後
と事前分布を逐次更新していって計算できるとのこと。

対戦前の状態を示す。
Ａチームの実力（勝率）が

x

であるときの確率密度（確率を計算するための数値で確率とは違う）を

y

とすると事前分布は下図のとおり。
Fig0601_y＝1w520.png

１勝後

対戦後は、それぞれの実力

x

が現れる度合

y

（確率密度）での勝つ確率を計算する。それぞれの実力

x

が現れる度合（確率密度）は一様分布で

y = 1 (0 ≦ x ≦ 1)

だから、実力（勝つ確率、勝率）をかけて

y = 1 \times x (0 ≦ x ≦ 1)

となる。グラフにすると
Fig0603_y＝x重書w520.png

下の青色の部分がＡチームが勝った確率で上側の灰色の部分がＡチームが負けた確率になる。青色の三角形の部分の面積はＡチームの実力（勝つ確率）が０～１での第１戦目に勝つ（勝った）確率となるが、面積は底辺×高さ÷２となるので

1 \times 1 \div 2 = 0.5

である。
確率分布とするためには、全事象の確率を１とするために正規化という作業をする。
Fig0604_y＝2x_w520.png

式は

y = 2 x

これが１勝後の事後分布かつ２戦目の事前分布となる。

２勝後

２戦目は、事前分布であるそれぞれの実力

x

が現れる度合（確率密度）

y = 2 x

での勝つ確率を計算する。勝つ確率はそれぞれの実力

x

だから２連勝の起こる確率は、事前分布に勝つ確率を掛けて

y = 2 x \times x (0 ≦ x ≦ 1)

となる。グラフにすると
Fig0801_y=2x^2.png

青色の部分がＡチームが２戦目も勝った確率で上の灰色の部分がＡチームが２戦目で負ける確率となる。青色の部分の面積は

\int_{0}^{1} 2 x^{2} d x = {[\frac{2}{3} x^{3}]}_{0}^{1} = \frac{2}{3}

正規化するためには、

\frac{3}{2}

を掛ければ良いから

y = 2 x^{2} \times \frac{3}{2} = 3 x^{2} (0 ≦ x ≦ 1)

となる。

これが、事後分布となる。

３勝後

３戦目は、事前分布であるそれぞれの実力

x

が現れる度合（確率密度）

y = 3 x^{2}

での勝つ確率を計算する。勝つ確率はそれぞれの実力

x

だから３連勝の起こる確率は、事前分布に勝つ確率を掛けて

y = 3 x^{2} \times x (0 ≦ x ≦ 1)

となる。
グラフにすると
Fig0803_y=3x^3.png

青色の部分がＡチームが３戦目も勝った確率で上の灰色の部分がＡチームが３戦目で負ける確率となる。青色の部分の面積は

\int_{0}^{1} 3 x^{3} d x = {[\frac{3}{4} x^{4}]}_{0}^{1} = \frac{3}{4}

正規化するためには、

\frac{4}{3}

を掛ければ良いから

y = 3 x^{3} \times \frac{4}{3} = 4 x^{3} (0 ≦ x ≦ 1)

これが、事後分布となる。

４勝後

４戦目は、事前分布であるそれぞれの実力

x

が現れる度合（確率密度）

y = 4 x^{3}

での勝つ確率を計算する。勝つ確率はそれぞれの実力

x

だから４連勝の起こる確率は、事前分布に勝つ確率を掛けて

y = 4 x^{3} \times x (0 ≦ x ≦ 1)

となる。グラフにすると
Fig0805_y=4x^4.png

青色の部分がＡチームが４戦目も勝った確率で上の灰色の部分がＡチームが４戦目で負ける確率となる。青色の部分の面積は

\int_{0}^{1} 4 x^{4} d x = {[\frac{4}{5} x^{5}]}_{0}^{1} = \frac{4}{5}

正規化するためには、

\frac{5}{4}

を掛ければ良いから

y = 4 x^{4} \times \frac{5}{4} = 5 x^{4} (0 ≦ x ≦ 1)

これが、事後分布となる。
当たり前だが、前回の対戦前の事前確率からいきなり４連勝したときの事後確率分布と同じ式になっている。

2019-09-02 20:05 nice!(0) コメント(0)
共通テーマ：趣味・カルチャー

日本シリーズ４連勝(07)　[確率統計]

２連勝から４連勝までのＡチームの実力について事後確率分布を計算してみる

前回の復習

まず、対戦前の事前分布を一様分布としたときの確率分布関数や各統計量は前回計算したとおり

y

　……　確率密度

x

　……　Ａチームの実力（勝つ確率）

y = 1 (0 ≦ x ≦ 1)

　……　事前分布

E = 0.5

　……　期待値

m = 0.5

　……　確率を二等分する

x

の値。自己流。中央値に相当するか？

O R = 1

　……　Ａチームが強い確率が弱い確率の何倍か。自己流。オッズ比に相当するか？

続いて、１勝後の事後確率分布関数や各統計量は前回計算したとおり

y = x (0 ≦ x ≦ 1)

　……　事後分布
上を正規化（１勝した確率の合計を１に調整する）すると

y = 2 x (0 ≦ x ≦ 1)

　……　正規化後の分布

E = \frac{2}{3}

　……　期待値

m ≒ 0.7071

　……　確率を二等分する

x

の値。自己流。中央値に相当するか？

O R = 3

　……　Ａチームが強い確率が弱い確率の何倍か。自己流。オッズ比に相当するか？

２連勝後の事後分布(1)

初期状態の事前分布は

y = 1 (0 ≦ x ≦ 1)

Ａチームが２連勝する確率は

x^{2}

だから

y = x^{2} (0 ≦ x ≦ 1)

これが２連勝後のグラフとなる。事前分布とこれを重ねると
Fig0701_y=x^2重書w520.png

青の部分の面積は

\int_{0}^{1} x^{2} d x = {[\frac{1}{3} x^{3}]}_{0}^{1} = \frac{1}{3}

正規化すると（青の部分の面積を１にする。すなわち、全事象の確率（２連勝の確率の合計）を１にする。）

y = 3 x^{2} (0 ≦ x ≦ 1)

これが、事後分布となる。

２連勝後の事後分布(2)

これをベータ分布で考えると、ベータ分布の一般式は下記のとおりで

y = C x^{α - 1} {(1 - x)}^{β - 1} (0 ≦ x ≦ 1)

ここで、

y

　……　右辺での確率密度

C

　……　全事象確率を１にするための調整定数

x

　……　Ａチームの実力（勝つ確率）

1 - x

　……　Ａチームが負ける確率

α - 1

　……　Ａチームの勝利数

β - 1

　……　Ａチームの敗北数
２勝０敗だから

C = 1, α = 3, β = 1

としてやる。

y = 1 \times x^{3 - 1} {(1 - x)}^{1 - 1} = x^{2}

前記と同様に全事象の確率が１となるようにすると事後分布は

y = 3 x^{2} (0 ≦ x ≦ 1)

ベータ分布の期待値

E

は

E = \frac{α}{α + β} = \frac{3}{3 + 1} = \frac{3}{4}

である。
期待値以下の面積（確率）は

\int_{0}^{\frac{3}{4}} 3 x^{2} d x = {[x^{3}]}_{0}^{\frac{3}{4}} = {(\frac{3}{4})}^{3} ≒ 0.4219

期待値以上の面積（確率）は

\int_{\frac{3}{4}}^{1} 3 x^{2} d x = {[x^{3}]}_{\frac{3}{4}}^{1} = 1 - {(\frac{3}{4})}^{3} ≒ 0.5781

Ａチームの実力（勝率）が期待値以上である確率は期待値以下の確率の1.37倍大きい。
Fig0702_y=x^2期待値Ew520.png

左右の確率が等しくなる点

m

は

\int_{0}^{m} 3 x^{2} d x = {[x^{3}]}_{0}^{m} = m^{3} = \frac{1}{2}

m = \sqrt[3]{\frac{1}{2}} ≒ 0.7937

次にＡチームの実力（勝率）がＢチームより強いか、弱いかを確率で示す。

x = 0.5

が五分五分だから左（弱い）右（強い）に分けて確率を求める。

\int_{0}^{\frac{1}{2}} 3 x^{2} d x = {[x^{3}]}_{0}^{\frac{1}{2}} = {(\frac{1}{2})}^{3} = \frac{1}{8}

だから

\int_{\frac{1}{2}}^{0} 3 x^{2} d x = \frac{7}{8}

その結果が下図。

２連勝した時点でＡチームの方が強い確率が弱い確率よりも7倍も大きくなる。ベイズの定理を使って事後確率分布を計算していると自分では思っているのだが、それが正しいと考えれば、オッズ比（？）は７倍だから３戦目はＡチームが負ける方に１万円賭け、Ａチームが負けると８万円戻るという賭けとＡチームが勝つ方に７万円賭け、Ａチームが勝つと８万円戻るという賭けが平等ということになる。素人考えでは、負ける方に賭けるのが有利に感じる。

３連勝した

初期状態の事前分布は

y = 1 (0 ≦ x ≦ 1)

Ａチームが３連勝する確率は

x^{3}

だから

y = x^{3} (0 ≦ x ≦ 1)

これが３連勝後のグラフとなる。事前分布とこれを重ねると
Fig0705_y=x^3重書w498.png

青の部分の面積は

\int_{0}^{1} x^{3} d x = {[\frac{1}{4} x^{4}]}_{0}^{1} = \frac{1}{4}

正規化すると（青の部分の面積を１にする。すなわち、全事象の確率を１にする。）

y = 4 x^{3} (0 ≦ x ≦ 1)

これが、事後分布となる。

３連勝後の事後分布(2)

これをベータ分布で考えると、３勝０敗だから

C = 1, α = 4, β = 1

としてやる。

y = 1 \times x^{4 - 1} {(1 - x)}^{1 - 1} = x^{3}

前記と同様に全事象の確率が１となるように正規化すると事後分布は

y = 4 x^{3} (0 ≦ x ≦ 1)

となり、ベータ分布の期待値

E

は

E = \frac{4}{4 + 1} = \frac{4}{5}

である。
期待値以下の面積（確率）は

\int_{0}^{\frac{4}{5}} 4 x^{3} d x = {[x^{4}]}_{0}^{\frac{4}{5}} = {(\frac{4}{5})}^{4} ≒ 0.4096

期待値以上の面積（確率）は

\int_{\frac{4}{5}}^{1} 4 x^{3} d x ≒ 1 - 0.4096 = 0.5904

Ａチームの実力（勝率）が期待値以上である確率は期待値以下の確率の1.44倍大きいが、２連勝と３連勝では大して変わらない。
Fig0706_y=x^3期待値Ew520.png

左右の確率が等しくなる点

m

は

\int_{0}^{m} 4 x^{3} d x = {[x^{4}]}_{0}^{m} = m^{4} = \frac{1}{2}

m = \sqrt[4]{\frac{1}{2}} ≒ 0.8409

Ａチームの実力（勝率）がＢチームより強いか、弱いかを確率で示す。

x = 0.5

の左（弱い）右（強い）に分けて確率を求める。

\int_{0}^{\frac{1}{2}} 4 x^{3} d x = {[x^{4}]}_{0}^{\frac{1}{2}} = {(\frac{1}{2})}^{4} = \frac{1}{16}

だから

\int_{\frac{1}{2}}^{0} 4 x^{3} d x = \frac{15}{16}

その結果が下図。

４連勝した

初期状態の事前分布は

y = 1 (0 ≦ x ≦ 1)

Ａチームが４連勝する確率は

x^{4}

だから

y = x^{4} (0 ≦ x ≦ 1)

これが４連勝後のグラフとなる。事前分布とこれを重ねると
Fig0709_y=x^4重書w507.png

青の部分の面積は

\int_{0}^{1} x^{4} d x = {[\frac{1}{5} x^{5}]}_{0}^{1} = \frac{1}{5}

正規化すると（青の部分の面積を１にする。すなわち、全事象の確率を１にする。）

y = 5 x^{4} (0 ≦ x ≦ 1)

これが、事後分布となる。

４連勝後の事後分布(2)

これをベータ分布で考えると、４勝０敗だから

C = 1, α = 5, β = 1

としてやる。

y = 1 \times x^{5 - 1} {(1 - x)}^{1 - 1} = x^{4}

前記と同様に全事象の確率が１となるように正規化すると事後分布は

y = 5 x^{4} (0 ≦ x ≦ 1)

となり、ベータ分布の期待値

E

は

E = \frac{5}{5 + 1} = \frac{5}{6}

である。
期待値以下の面積（確率）は

\int_{0}^{\frac{5}{6}} 5 x^{4} d x = {[x^{5}]}_{0}^{\frac{5}{6}} = {(\frac{5}{6})}^{5} ≒ 0.4019

期待値以上の面積（確率）は

\int_{\frac{5}{6}}^{1} 5 x^{4} d x ≒ 1 - 0.4019 = 0.5981

Ａチームの実力（勝率）が期待値以上である確率は期待値以下の確率の1.49倍大きいが、伸びは２連勝、３連勝、４連勝となるごとに鈍化している。
Fig0710_y=x^4期待値Ew520.png

左右の確率が等しくなる点

m

は

\int_{0}^{m} 5 x^{4} d x = {[x^{5}]}_{0}^{m} = m^{5} = \frac{1}{2}

m = \sqrt[5]{\frac{1}{2}} ≒ 0.8706

Ａチームの実力（勝率）がＢチームより強いか、弱いかを確率で示す。

x = 0.5

の左（弱い）右（強い）に分けて確率を求める。

\int_{0}^{\frac{1}{2}} 5 x^{4} d x = {[x^{5}]}_{0}^{\frac{1}{2}} = {(\frac{1}{2})}^{5} = \frac{1}{32}

だから

\int_{\frac{1}{2}}^{0} 5 x^{4} d x = \frac{31}{32}

その結果が下図。

Ａチームの方が強い確率が約９７％（0.96875）だということになる。実力が互角ならどちらかが４連勝する確率は16分の2で0.125となるにもかかわらず、ベイズの定理に従って（自分ではそう思っている）計算したら、４連勝したら五分五分ではない確率が約９７％であるというわけだ。
腑に落ちない。

ベイズ推定の逐次合理性

今回は、対戦前の事前確率分布から１勝、２連勝、３連勝、４連勝後の事後確率分布を計算したが、ベイズ推定の逐次合理性というものがあって、順々に計算できるらしい。
つまり
事前分布→事後分布
として
対戦前→１勝後
１勝後→２連勝後
２連勝後→３連勝後
３連勝後→４連勝後
と事前分布を逐次更新していって計算できるとのこと。
次回、これで計算してみる。

2019-08-29 19:28 nice!(1) コメント(0)
共通テーマ：趣味・カルチャー

日本シリーズ４連勝(06)　[確率統計]

Ａチームの実力を連続変数として計算してみる

Ａチームの実力を３パターンで計算してみたが、全部を網羅して計算したい。そうすると、Ａチームの実力の期待値が計算できたり、0.5～0.6となる確率とか0.5以下のときの確率とか自由自在に計算できる。

ベイズの定理の復習と適用

まず、ベイズの定理の復習

P (A | B) = \frac{P (B | A) P (A)}{P (B)}

各項目の意味は、

P (A | B)

　……　Ｂという事象が起こったときに事象Ａが起こる確率

P (B | A)

　……　Ａという事象が起こったときに事象Ｂが起こる確率

P (A)

　……　Ａという事象が起こる確率

P (B)

　……　Ｂという事象が起こる確率

これを今回の日本シリーズ４連勝に当てはめてみる。変数名を連想しやすく変える。

P (x | W) = \frac{P (W | x) P (x)}{P (W)}

各項目の意味は、

P (x | W)

　……　Ａチームが１勝、２連勝、３連勝もしくは４連勝したときに、Ａチームの実力が

x

である確率

P (W | x)

　……　Ａチームの実力が

x

のとき、勝つ確率（それぞれの計算で１勝、２連勝、３連勝、４連勝する確率）

P (x)

　……　Ａチームの実力（勝率）が

x

である確率

P (W)

　……　Ａチームが勝つ確率（それぞれの計算で１勝、２連勝、３連勝、４連勝する確率）

P (W | x)

　……　これを事前確率といって、事前確率（それぞれの実力

x

に対する勝つ確率）を仮定（計算）しておいて

P (x | W)

　……　これを事後確率といって、対戦結果をみて真（？）の実力

x

を求める
多分、この解釈でいいと思う。

事前分布をグラフにしてみる

確率を連続変数として計算してみる。まず、分かりやすくするため、Ａチームの実力が

x

であるときの確率密度（確率を計算するための数値で確率とは違う）を

y

として事前分布を図示する。連続変数とした段階で事前確率は事前（確率）分布、事後確率は事後（確率）分布となり期待値（平均値と言ってもいいか？）や、実力の範囲の確率（例えば実力が0.5～1とか）が計算できる。
Fig0601_y＝1w520.png

一様分布だからその式は

y = 1 (0 ≦ x ≦ 1)

このグラフ（一様分布）はベータ分布でも描けるのだが、ベータ分布の一般式は下記のとおり。

y = C x^{α - 1} {(1 - x)}^{β - 1} (0 ≦ x ≦ 1)

ここで、

y

　……　右辺での確率密度

C

　……　全事象確率を１にするための調整定数

x

　……　Ａチームの実力（勝つ確率）

1 - x

　……　Ａチームが負ける確率

α - 1

　……　Ａチームの勝利数

β - 1

　……　Ａチームの敗北数
対戦前の事前分布を表すのだから、勝利数も敗北数も０にするために

C = 1

α = 1

β = 1

として

y = 1 (0 ≦ x ≦ 1)

となる。
ベータ分布にして便利な点は期待値（平均値、多分加重平均値だと思う）を簡単に計算できることがある。ベータ分布の期待値

E

の式は

E = \frac{α}{α + β}

なので、一様分布の場合は

E = \frac{1}{1 + 1} = \frac{1}{2} = 0.5

である。

１勝後の事後分布(1)

x = 0

なら必ず負けるので

y = 0

、

x = 1

なら必ず勝つので

y = 1

、

x = 0.5

なら勝敗の確率は五分五分なので

y = 0.5

となる。つまり

y = x (0 ≦ x ≦ 1)

となる。

事前分布と重ねると
Fig0603_y＝x重書w520.png

下の水色の部分がＡチームが勝った確率で上側の灰色の部分がＡチームが負けた確率になる。水色の三角形の部分の面積はＡチームの実力（勝つ確率）が０～１での第１戦目に勝つ（勝った）確率となるが、面積は底辺×高さ÷２となるので

1 \times 1 \div 2 = 0.5

である。
第２戦へは勝った方だけが行くので、勝った方の確率の合計が１となるように調整（正規化）すると下図のとおり
Fig0604_y＝2x_w520.png

式は

y = 2 x

これが１勝後の事後分布となる。

１勝後の事後分布(2)

念のためベータ分布でも計算してみる。１勝０敗だから

C = 1, α = 2, β = 1

としてやる。

\begin{array}{l} y & = & 1 \times x^{α - 1} {(1 - x)}^{β - 1} \\ = & x^{2 - 1} {(1 - x)}^{1 - 1} \\ = & x^{1} {(1 - x)}^{0} \\ = & x \times 1 \\ = & x \end{array}

上と同様に全事象の確率が１となるようにすると

y = 2 x

期待値

E

は

E = \frac{α}{α + β} = \frac{2}{2 + 1} = \frac{2}{3}

である。
１勝しただけで、Ａチームの実力（勝率）の期待値が

\frac{2}{3}

となるが、感覚的にはたった１勝でＡチームはＢチームに対して期待値で約６割７分の勝率を見込むとは盛りすぎではないかと思うが、ベイズ流の確率計算ではこうなるのでしょうがない。ベイズ流の主観確率では対戦前の事前確率分布の期待値が五分五分と思ってたが、対戦後は事後分布の期待値が約６割７分だと思うべきだとなる。
Fig0605_y＝2xのE重心w520.png

この期待値というのは、平均値ではなく加重平均（重心）であり上のように期待値を支点としてやじろべえを作ると左右が釣り合うということになる。図で見ると感覚的に釣り合うように思えない。左に傾きそう。
で、左側が期待値

(E)

以下の確率

P (0 ≦ x ≦ E)

、右側が期待値

(E)

以上の確率

P (E ≦ x ≦ 1)

はそれぞれ、

P (0 ≦ x ≦ E) = \frac{2}{3} \times \frac{4}{3} \times \frac{1}{2} = \frac{4}{9}

P (E ≦ x ≦ 1) = (\frac{4}{3} + 2) \times \frac{1}{3} \times \frac{1}{2} = \frac{10}{3} \times \frac{1}{3} \times \frac{1}{2} = \frac{5}{9}

である。Ａチームの実力（勝率）が期待値以上の確率の方が期待値以下よりも大きい（1.25倍）。こうなると期待値というのが感覚的に納得できない。
素人考えでは期待値は平均値となるべきで、図の左右の面積（確率）が等しい点、つまり確率0.5となる点ではなかろうかと。だから三角形の面積の計算で底辺×高さ÷２＝0.5。そうなる底辺を

m

とする。高さは

2 m

だから。

m \times 2 m \div 2 = 0.5

m = \sqrt{0.5} ≒ 0.7071

m

は、いったい何なのだろう。平均値とは言えないのだろうな。中央値(median)かな？分からない。計算結果は、意外にも

m

の方が、期待値

E

よりもＡチームが強いと見積もられている。
別の考えをして、今度はＡチームの実力（勝率）がＢチームより強いか、弱いかを確率で示すと

x = 0.5

が五分五分だから左（弱い）右（強い）に分けて確率を求める。その結果が下図。
Fig0607_y＝2xを4分割w520.png

たった１勝しただけでＡチームの方が強い確率が弱い確率よりも3倍も大きくなる。たった１勝なのに。ベイズの定理を使って事後確率分布を計算していると自分では思っているのだが、この計算結果は、ちょっと感覚的になじめない。
取り敢えず、今回はここまで。次回２連勝から４連勝までの事後確率を計算する。

2019-08-24 20:34 nice!(0) コメント(0)
共通テーマ：趣味・カルチャー

日本シリーズ４連勝(05)　[確率統計]

Ａチームの実力がaの確率を図で整理してみる

前回の計算結果を図にして復習してみる。
対戦前の事前確率分布から４連勝後までの確率分布を図にしてみた
01日本シリーズ４連勝(0)w520.png

本を読むと確率を面積で示すのが流儀だと分かった。全体の面積を１として各部分の面積を計算するとその面積が確率の値となる。かなり、分かりやすい工夫だと思う。５枚の図を見ると、４連勝後は、６・４でＡチームの方が強い確率が五分五分や４・６よりも高い確率（面積が広い）となっている。それでも逆にＡチームの方が弱いのに４連勝する確率が１割強もある。こんなとき、「Ａチームに勢いがありましたね。」なんて解説者がしたり顔でいうけど、勢いというのは単なる偶然のことかもしれないということがグラフで分かる。

Ａチームの実力aを連続変数にして事前分布を検討してみる

３通りの計算はできた。次は９通りなんて中途半端なことはせずaを連続変数として計算してみる。まず分布の検討から。対戦前はＡチームが勝つか負けるかの確率は分からない。こういったときベイズ流ではどちらかが強いとかの事前情報がないのだから期待値（平均値又は重心）は中立の値で0.5となる分布を事前確率分布として仮定する。また、０から１までの間でaどのように分布するのかの情報もないので均等に分布するとして下図のような一様分布を仮定する。

青色の部分の面積は高さ×幅で１×１＝１である。
勝負の確率が0.5（五分五分）の確率はというと次の図で

期待値0.5のところの高さは1であるが、これは期待値0.5の確率ではない。この高さのことを確率密度というそうだ。確率を計算するには面積を求めるのだが、幅が０だから面積は１×０＝０である。ピンポイントで確率は計算できない。
しかし、期待値0.45～0.55ならば下図のとおり
08一様分布確率w520.png

確率は１×0.1＝0.1と計算できる。
一様分布は対戦チームの実力が０から１までなのだから、対戦チームがプロ野球から草野球まで玉石混交状態であるときにモデルとして適当と思われる。しかし、日本シリーズとかのプロの頂上決戦では各チームの勝つ確率が一様分布では事前分布として不適当ではないか。一様分布は特殊な分布だと考えられる。一様分布している自然現象は知っている限りでは電気的ノイズのようなもので乱数の発生装置として利用していると聞いたことがある。沢山データをとってそれが一様に並ぶなんて予めデータに細工をしておかねばできないようにも思える。一様分布は胡散臭い分布が感想。
ならば、平均値0.5の正規分布はどうだろうか。
平均値0.5の正規分布といっても、標準偏差（sd）によって分布の形が変わる。下図に標準偏差がsd=0.05～0.08でグラフを描いてみた
09正規分布w520.png

しつこいけれど、実力の予想を五分五分と四分六で考えているのでＡチームが勝つ確率を0.4～0.6の間の確率が高いとみて各標準偏差のとき勝つ確率が0.4～0.6に入る確率（P(z)）を計算してみた。結果は下図のとおり。

さて上の分布のうちどれを事前分布として採用すべきか。そもそも、色々な統計量は正規分布に近似できるものが多い。例えば、身長、体重、テストの成績、実験の計測値等々。それらは、過去にデータをとってヒストグラム作って確かめられている。この経験則があるので少数のデータでも統計学的な判断ができる。しかし、日本シリーズ４連勝ではこれができない。
日本シリーズ４連勝では元になる実力、勝つ確率をあらかじめ測定できず、ヒストグラムは作れるわけもない。対戦前に勝つ確率を実測できないのなら、正規分布をしているかもしれないが、標準偏差は当然分からず適当な事前分布を仮定できない。
どうせ適切な分布を仮定できないのなら、計算に便利な一様分布を使うというのもありかなと思う。統計学の専門家はこんなところで思い悩まず一様分布を仮定して利用するのだと思う。

2019-08-11 20:31 nice!(0) コメント(0)
共通テーマ：趣味・カルチャー

日本シリーズ４連勝(04)　[確率統計]

【修正版 2019.08.06】

Ａチームの実力がaの確率を計算してみる

今までＡチームの実力がaであるときの４連勝決着確率又は４連勝及び４連敗決着確率を計算してきたが、逆に４戦で決着したときにＡチームの実力がaである確率を計算してみる。ベイズの定理というもので計算できるのだが、ここは地道に計算してみる。

３パターンで考える４連勝決着のときのＡチームの実力

対戦が始まる前は、ＡチームとＢチームの実力が次の３通りのいずれかでどれが一番確からしいかとかは分からず、皆平等だと考える。Ａチームの勝つ確率を

a = 0.6, 0.5, 0.4

の３通りでそれらの確率は

P (a = 0.6) = \frac{1}{3}

P (a = 0.5) = \frac{1}{3}

P (a = 0.4) = \frac{1}{3}

と考える。この予め仮定した

\frac{1}{3}

の確率のことを事前確率というはずだ。

Ａチームが１勝した後

１戦目でＡが勝ったとき、

a = 0.6, 0.5, 0.4

のそれぞれで考える。まず

a = 0.6

のとき勝つ確率は

0.6

だがこれを

P (A = 1 | a = 0.6) = P (a = 0.6) \times a = \frac{1}{3} \times 0.6 = \frac{6}{30}

こう書く。文章にすると、Ａチームの実力が0.6という条件でＡチームが１勝する確率は、Ａチームの実力が0.6の確率にＡチームが勝つ確率（実力）0.6を掛けた値というふうになる。
続いて

a = 0.5, 0.4

のときは、

P (A = 1 | a = 0.5) = P (a = 0.5) \times a = \frac{1}{3} \times 0.5 = \frac{5}{30}

P (A = 1 | a = 0.4) = P (a = 0.4) \times a = \frac{1}{3} \times 0.4 = \frac{4}{30}

これでＡチームのそれぞれの事前確率のときにＡが勝つ確率が求まった。で、今Ａチームが勝った時、どの実力が原因で勝ったのかの確率は上の確率のままではダメ。それは、３つの場合の確率を計算すると

\frac{6}{30} + \frac{5}{30} + \frac{4}{30} = \frac{15}{30}

で足しても1にならない。確率は全部の事象（おきる事柄）の確率の和は1とするので1となるよう上を調整する。そうすると、Ａが勝った（この場合１勝した）のは実力がaであったから、つまりＡが勝ったという条件でＡの実力が0.6, 0.5, 0.4のそれぞれについての確率を求めることができる。
それを

P (a = 0.6 | A = 1)

P (a = 0.5 | A = 1)

P (a = 0.4 | A = 1)

こう書く。このように原因と結果を逆して書く。文章にすると「Ａが勝ったという条件でＡの実力が0.6, 0.5, 0.4である確率」になる。生じた結果から原因の確率を計算するのがベイズ流であるらしい。

P (a = 0.6 | A = 1) = \frac{6}{30} \times 2 = \frac{12}{30} = \frac{2}{5}

P (a = 0.5 | A = 1) = \frac{5}{30} \times 2 = \frac{10}{30} = \frac{1}{3}

P (a = 0.4 | A = 1) = \frac{4}{30} \times 2 = \frac{8}{30} = \frac{4}{15}

となる。

a = 0.5

のときは、１勝後の確率（事後確率）は事前確率のままで変化してない。

a = 0.6

のときは勝ったという結果をみて、この仮定は確からしいと思うので事後確率が大きくなり、逆に

a = 0.4

のときは、弱いはずはなかったのかと事後確率が小さくなる。このことは、現実にそぐう。ただ、確率の数値については完全に納得できたわけではなく、そんなもんなのかという感想となる。
この段階で整理すると、対戦前に理由不十分（主観）で３通りのＡの実力が平等（仮定）だと言っていた人はＡが１勝したという事実（結果）をもって、上のように主観確率を変えるべきだになる。ではＡの実力を総合的にどう見積るかといえば、平均値（というか重心）をとるのだが確率のときは期待値という

Ａの実力の期待値（平均値） = 0.6 \times \frac{2}{5} + 0.5 \times \frac{1}{3} + 0.4 \times \frac{4}{15} ≒ 0.5133

Ａチームがほんの少し強いと考えを変えるべきだ。

Ａチームが２勝した後

同様に、第2戦目の後どうなるか計算する。１勝後の事後確率を２戦目の事前確率として

P (a = 0.6) = \frac{2}{5}

P (a = 0.5) = \frac{1}{3}

P (a = 0.4) = \frac{4}{15}

である。Ａが連勝したときの確率は

P (A = 2 | a = 0.6) = \frac{2}{5} \times \frac{6}{10} = \frac{12}{50} = \frac{36}{150}

P (A = 2 | a = 0.5) = \frac{1}{3} \times \frac{5}{10} = \frac{5}{30} = \frac{25}{150}

P (A = 2 | a = 0.4) = \frac{4}{15} \times \frac{4}{10} = \frac{16}{150}

上の確率の合計は

\frac{77}{150}

だから、正規化（総和を１に）して、それぞれの事後確率を求める

P (a = 0.6 | A = 2) = \frac{36}{150} \times \frac{150}{77} = \frac{36}{77} ≒ 0.4675

P (a = 0.5 | A = 2) = \frac{25}{150} \times \frac{150}{77} = \frac{25}{77} ≒ 0.3247

P (a = 0.4 | A = 2) = \frac{16}{150} \times \frac{150}{77} = \frac{16}{77} ≒ 0.2078

となる。２連勝後はＡチームの実力が

a = 0.5

という確率は

\frac{1}{3}

より小さくなる。Ａチームの実力の期待値は

Ａの実力の期待値 ≒ 0.6 \times 0.4675 + 0.5 \times 0.3247 + 0.4 \times 0.2078 = 0.52597

Ａチームの方がちょっと強いと見積るべきとなる。

Ａチームが３勝した後

続いて、第３戦目の後どうなるか計算する。３戦目の前の事前確率は

P (a = 0.6) ≒ 0.4675

P (a = 0.5) ≒ 0.3247

P (a = 0.4) ≒ 0.2078

である。Ａが３連勝したときの確率は

P (A = 3 | a = 0.6) ≒ 0.4675 \times 0.6 = 0.2805

P (A = 3 | a = 0.5) ≒ 0.3247 \times 0.5 ≒ 0.1624

P (A = 3 | a = 0.4) ≒ 0.2078 \times 0.4 ≒ 0.0831

上の確率の合計0.526で正規化すると

P (a = 0.6 | A = 3) ≒ 0.2805 \div 0.526 ≒ 0.5333

P (a = 0.5 | A = 3) ≒ 0.1624 \div 0.526 ≒ 0.3087

P (a = 0.4 | A = 3) ≒ 0.0831 \div 0.526 ≒ 0.1580

３連勝後はＡチームの実力が

a = 0.6

という確率、つまりＡチームの方が強いという確率は、５割を超える。Ａチームの実力は

Ａの実力の期待値 ≒ 0.6 \times 0.5333 + 0.5 \times 0.3087 + 0.4 \times 0.1580 ≒ 0.5375

このように見積るべきとなる。２連勝後と３連勝後のＡチームの強さの見積はあまり変わらない。
＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃

Ａチームが４勝した後

最後に、第４戦目の後、Ａチームが４連勝で日本シリーズを制したとき、Ａチームの強さをどのように見積るべきかを計算する。４戦目の前の事前確率は

P (a = 0.6) ≒ 0.5333

P (a = 0.5) ≒ 0.3087

P (a = 0.4) ≒ 0.1580

である。Ａが４連勝したときの確率は

P (A = 4 | a = 0.6) ≒ 0.5333 \times 0.6 ≒ 0.3200

P (A = 4 | a = 0.5) ≒ 0.3087 \times 0.5 ≒ 0.1544

P (A = 4 | a = 0.4) ≒ 0.1580 \times 0.4 ≒ 0.0632

上の確率の合計0.5376で正規化すると

P (a = 0.6 | A = 4) ≒ 0.3200 \div 0.5376 ≒ 0.5952

P (a = 0.5 | A = 4) ≒ 0.1544 \div 0.5376 ≒ 0.2872

P (a = 0.4 | A = 4) ≒ 0.0632 \div 0.5376 ≒ 0.1176

ところで、これら値は前回計算した４連勝決着確率(https://ykdn.blog.so-net.ne.jp/2019-07-28#wariai)と同じ数値になっている。ベイズの定理といっても素人が普通に考えても同じ数値になるのだから難しくはないのだろう。ただ、持って回った言い方をしているので混乱するのではなかろうか。
４連勝後の期待値は、Ａチームの実力は

Ａの実力の期待値 ≒ 0.6 \times 0.5952 + 0.5 \times 0.2872 + 0.4 \times 0.1176 ≒ 0.5478

このように見積るべきとなる。４連勝後のＡチームの強さの見積は、こんなものだ。それは、仮定が３通りだったから。Ａチームが強くても

a = 0.6

と仮定しているのだ当たり前の数値だ。
Ａチームの実力を0～1の連続した値で計算したらどうなるのだろうか。

2019-08-06 10:24 nice!(0) コメント(0)
共通テーマ：趣味・カルチャー

日本シリーズ４連勝(03)　[確率統計]

Ａチームが４連勝したのは何故か？

前回実力差があるときの４連勝決着確率（９パターン）の表を示したが、たとえば今ここにＡチームの４連勝決着例が示されたときＡチームの実力を0.1～0.9として対戦前のＡチームの実力をどのように見積ればいいのだろうか。Ａが勝つ確率が0.1のときは４連勝する確率が0.0001で１万分の１だからそれはありそうにもない。Ａが勝つ確率が0.9のときは４連勝する確率が0.6561で十分にありそうだ。でもＡが勝つ確率が0.9ということ自体ありそうな仮定なのか？極端に言えばＡが勝つ確率が1のときは４連勝する確率が1でこれ以外にない。でもＡが勝つ確率が1ということはあまりに乱暴な仮定ではないか。

３パターンで考える４連勝決着確率

４連勝決着確率（９パターン）では複雑になるので、ＡチームとＢチームの実力を仮に次の３通りのいずれかでどれが一番確からしいかとかは分からず、皆平等だと考える。Ａチームの勝つ確率を

a = 0.6, 0.5, 0.4

の３通りでそれらの確率は

$P (a = 0.6) = \frac{1}{3}$

$P (a = 0.5) = \frac{1}{3}$

$P (a = 0.4) = \frac{1}{3}$

と考える。この予め仮定した

\frac{1}{3}

の確率のことを事前確率というようだ。
Ａチームが強いと考えれば、

P (a = 0.6)

のとき事前確率を大きめに、他の確率を小さめにして合計確率を１とする。逆もまたしかり。
３パターンそれぞれでＡの４連勝で決着する確率を計算してみる。

a = 0.6

のとき（という条件で）Ａが４連勝する確率は

0.1296

である。条件付確率というそうだ。これを数式で下のように表す。

P (A = 4 | a = 0.6) = 0.1296

同様に

a = 0.5, 0.4

は

P (A = 4 | a = 0.5) = 0.0625

P (A = 4 | a = 0.4) = 0.0256

当然Ａチームの方が強ければ４連勝となる確率も高くなるのだが、その確率は他の場合と比べてどの位なのかを調べたい。４連勝となる確率の比を取ってみる。

\frac{P (A = 4 | a = 0.6)}{P (A = 4 | a = 0.5)} = \frac{0.1296}{0.0625} = 2.0736

\frac{P (A = 4 | a = 0.6)}{P (A = 4 | a = 0.4)} = \frac{0.1296}{0.0256} = 5.0625

\frac{P (A = 4 | a = 0.5)}{P (A = 4 | a = 0.4)} = \frac{0.0625}{0.0256} ≒ 2.4414

Ａチームが強いとき

a = 0.6

は五分五分のときと比べ４連勝する確率は

2.0736

倍大きくなる。だからどうしたということになるのだけれども、２倍くらいじゃ、絶対Ａチームの方が強いとは言えず、多分Ａチームの方が強いのじゃないだろうかなぁ？多分ネッ？てなもんだ。この割り算したときの比のことを尤度比というのかと思ったけれどそうではない。単に確率の比をとっただけ。
もうちょい計算してみる。

割合を調べてみる。

\begin{array}{l} P3 & = & P (A = 4 | a = 0.6) + P (A = 4 | a = 0.5) + P (A = 4 | a = 0.4) \\ = & 0.2177 \end{array}

\frac{P (A = 4 | a = 0.6)}{P3} = \frac{0.1296}{0.2177} ≒ 0.5953

\frac{P (A = 4 | a = 0.5)}{P3} = \frac{0.0625}{0.2177} ≒ 0.2871

\frac{P (A = 4 | a = 0.4)}{P3} = \frac{0.0256}{0.2177} ≒ 0.1176

で、この値は何だ？３通りの実力仮定では

a = 0.6

のときの確率が

0.5953

となるということか？何か変だ。素人は無駄なことばかりしているような気がする。
もっと考えてみる。

2019-07-28 15:19 nice!(0) コメント(0)
共通テーマ：趣味・カルチャー

前の10件 | - 確率統計ブログトップ

日	月	火	水	木	金	土
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

RSS1.0 | RSS2.0

ハートレイの等分散性検定

偶然か実力どおりかは分からない

宮城リョータ視点

星取表シミュレーション

ベイズ推定の逐次合理性を利用して４連勝まで事後確率を計算してみる

１勝後

２勝後

３勝後

４勝後

２連勝から４連勝までのＡチームの実力について事後確率分布を計算してみる

前回の復習

２連勝後の事後分布(1)

２連勝後の事後分布(2)

３連勝した

３連勝後の事後分布(2)

４連勝した

４連勝後の事後分布(2)

ベイズ推定の逐次合理性

Ａチームの実力を連続変数として計算してみる

ベイズの定理の復習と適用

事前分布をグラフにしてみる

１勝後の事後分布(1)

１勝後の事後分布(2)

Ａチームの実力がaの確率を図で整理してみる

Ａチームの実力aを連続変数にして事前分布を検討してみる

Ａチームの実力がaの確率を計算してみる

３パターンで考える４連勝決着のときのＡチームの実力

Ａチームが１勝した後

Ａチームが２勝した後

Ａチームが３勝した後

Ａチームが４勝した後

Ａチームが４連勝したのは何故か？

３パターンで考える４連勝決着確率

coo さん

coo さんの記事をnice!と思った人 (全1人)

カレンダー

月別表示

最新記事一覧

マイカテゴリー

coo さんがnice!と思った記事

coo さんがコメントした記事

最近のコメント

最近トラックバックされた記事

読んでいるブログ(RSS)

検索ボックス