日本シリーズ4連勝(05) [確率統計]
Aチームの実力がaの確率を図で整理してみる
前回の計算結果を図にして復習してみる。対戦前の事前確率分布から4連勝後までの確率分布を図にしてみた
本を読むと確率を面積で示すのが流儀だと分かった。全体の面積を1として各部分の面積を計算するとその面積が確率の値となる。かなり、分かりやすい工夫だと思う。 5枚の図を見ると、4連勝後は、6・4でAチームの方が強い確率が五分五分や4・6よりも高い確率(面積が広い)となっている。それでも逆にAチームの方が弱いのに4連勝する確率が1割強もある。こんなとき、「Aチームに勢いがありましたね。」なんて解説者がしたり顔でいうけど、勢いというのは単なる偶然のことかもしれないということがグラフで分かる。
Aチームの実力aを連続変数にして事前分布を検討してみる
3通りの計算はできた。次は9通りなんて中途半端なことはせずaを連続変数として計算してみる。
まず分布の検討から。対戦前はAチームが勝つか負けるかの確率は分からない。こういったときベイズ流ではどちらかが強いとかの事前情報がないのだから期待値(平均値又は重心)は中立の値で0.5となる分布を事前確率分布として仮定する。また、0から1までの間でaどのように分布するのかの情報もないので均等に分布するとして下図のような一様分布を仮定する。
期待値0.5のところの高さは1であるが、これは期待値0.5の確率ではない。この高さのことを確率密度というそうだ。確率を計算するには面積を求めるのだが、幅が0だから面積は1×0=0である。 ピンポイントで確率は計算できない。
しかし、期待値0.45~0.55ならば下図のとおり
確率は1×0.1=0.1と計算できる。
一様分布は対戦チームの実力が0から1までなのだから、対戦チームがプロ野球から草野球まで玉石混交状態であるときにモデルとして適当と思われる。しかし、日本シリーズとかのプロの頂上決戦では各チームの勝つ確率が一様分布では事前分布として不適当ではないか。 一様分布は特殊な分布だと考えられる。一様分布している自然現象は知っている限りでは電気的ノイズのようなもので乱数の発生装置として利用していると聞いたことがある。沢山データをとってそれが一様に並ぶなんて予めデータに細工をしておかねばできないようにも思える。一様分布は胡散臭い分布が感想。
ならば、平均値0.5の正規分布はどうだろうか。
平均値0.5の正規分布といっても、標準偏差(sd)によって分布の形が変わる。下図に標準偏差がsd=0.05~0.08でグラフを描いてみた
さて上の分布のうちどれを事前分布として採用すべきか。 そもそも、色々な統計量は正規分布に近似できるものが多い。例えば、身長、体重、テストの成績、実験の計測値等々。それらは、過去にデータをとってヒストグラム作って確かめられている。この経験則があるので少数のデータでも統計学的な判断ができる。 しかし、日本シリーズ4連勝ではこれができない。
日本シリーズ4連勝では元になる実力、勝つ確率をあらかじめ測定できず、ヒストグラムは作れるわけもない。対戦前に勝つ確率を実測できないのなら、正規分布をしているかもしれないが、標準偏差は当然分からず適当な事前分布を仮定できない。
どうせ適切な分布を仮定できないのなら、計算に便利な一様分布を使うというのもありかなと思う。統計学の専門家はこんなところで思い悩まず一様分布を仮定して利用するのだと思う。
青色の部分の面積は高さ×幅で1×1=1である。
勝負の確率が0.5(五分五分)の確率はというと次の図で
勝負の確率が0.5(五分五分)の確率はというと次の図で
期待値0.5のところの高さは1であるが、これは期待値0.5の確率ではない。この高さのことを確率密度というそうだ。確率を計算するには面積を求めるのだが、幅が0だから面積は1×0=0である。 ピンポイントで確率は計算できない。
しかし、期待値0.45~0.55ならば下図のとおり
確率は1×0.1=0.1と計算できる。
一様分布は対戦チームの実力が0から1までなのだから、対戦チームがプロ野球から草野球まで玉石混交状態であるときにモデルとして適当と思われる。しかし、日本シリーズとかのプロの頂上決戦では各チームの勝つ確率が一様分布では事前分布として不適当ではないか。 一様分布は特殊な分布だと考えられる。一様分布している自然現象は知っている限りでは電気的ノイズのようなもので乱数の発生装置として利用していると聞いたことがある。沢山データをとってそれが一様に並ぶなんて予めデータに細工をしておかねばできないようにも思える。一様分布は胡散臭い分布が感想。
ならば、平均値0.5の正規分布はどうだろうか。
平均値0.5の正規分布といっても、標準偏差(sd)によって分布の形が変わる。下図に標準偏差がsd=0.05~0.08でグラフを描いてみた
しつこいけれど、実力の予想を五分五分と四分六で考えているのでAチームが勝つ確率を0.4~0.6の間の確率が高いとみて各標準偏差のとき勝つ確率が0.4~0.6に入る確率(P(z))を計算してみた。結果は下図のとおり。
さて上の分布のうちどれを事前分布として採用すべきか。 そもそも、色々な統計量は正規分布に近似できるものが多い。例えば、身長、体重、テストの成績、実験の計測値等々。それらは、過去にデータをとってヒストグラム作って確かめられている。この経験則があるので少数のデータでも統計学的な判断ができる。 しかし、日本シリーズ4連勝ではこれができない。
日本シリーズ4連勝では元になる実力、勝つ確率をあらかじめ測定できず、ヒストグラムは作れるわけもない。対戦前に勝つ確率を実測できないのなら、正規分布をしているかもしれないが、標準偏差は当然分からず適当な事前分布を仮定できない。
どうせ適切な分布を仮定できないのなら、計算に便利な一様分布を使うというのもありかなと思う。統計学の専門家はこんなところで思い悩まず一様分布を仮定して利用するのだと思う。
コメント 0