2013/10/07

マラソン抽選の確率論~某大会の疑惑を検証【ランナーのための数学講座1】

日曜の東洋経済ONLINEに、「市民マラソン大会は誰のためのもの?」という某マラソン大会についての気になる記事が。

その大会の開催都市の周辺県の人がことごとくエントリーに落選したのは、居住地によって抽選を操作しているからではないか、という疑惑についてです。

運営側としては、宿泊やツアーによる経済効果があるので、地元を弾いて遠方を優遇するインセンティブはあるわけです。そういう操作も、エクセル一つで簡単にできてしまいます。果たしてどうなんでしょう・・・。

記事の中から一部伏せ字で引用します。
地元アマチュアランナーの中心的人物に電話で確認すると、「私の知る応募者30人ほどのうち、選ばれたのはたった1人。ほとんどは○○○かその周辺のランナー。1.9倍はそれほど高くない倍率なのに、ここまで極端だと偶然とは考えられない。せっかく○○○でもランニング熱が高まってきたのに。もう少しうまくやってほしい」と憤っていた。

倍率1.9倍(19,384人エントリーして10,000人当選)ということは、当選確率が約50%で、コインの裏表が出るのとほぼ同じ。期待値の30 x 50% = 15人前後は当選していないと違和感がありますね。

この倍率で厳正な抽選(居住地などで操作しない完全にランダムな抽選)が行われたという前提で、ある30人を集めたとき、当選1人落選29人というのは、あり得ることなんでしょうか?

というわけで、ちょっと実験してみましょう。コインを30枚用意して全部投げます(代わりに1枚のコインを30回投げてもいいです)。

これを表1枚裏29枚が出るまで繰り返すと、何回かかるかな?


(╯°□°)╯︵  . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  ←コイン30枚

ジャラジャラー

(・д・)ジーッ < 表17枚 裏13枚か。

これを「試行」といい、何度も繰り返します。

(╯°□°)╯︵  . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  表16 裏14
(╯°□°)╯︵  . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  表10 裏20
(╯°□°)╯︵  . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  表15 裏15
(╯°□°)╯︵  . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  表14 裏16
(╯°□°)╯︵  . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  表13 裏17
(╯°□°)╯︵  . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  表11 裏19
(╯°□°)╯︵  . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  表13 裏17
(╯°□°)╯︵  . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  表13 裏17
(╯°□°)╯︵  . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  表16 裏14

試行10回でも、表1枚のケースは出ませんね!



<追記>
シミュレーターをつけてみました。
下のボタンを押すと、コインが投げられます。
表1枚、裏29枚は出るでしょうか?
(何度かクリックしてみてください)

(╯°□°)╯︵





1,000回経過・・・


出る気配ありません(`・ω・´;)ゞ

(╯°Д°;)╯︵  . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

ジャラジャラー

まだまだ~!!

: : :



10,000回経過・・・


もう止めてもいいですか?


(╯.;´Д`;.)╯︵  . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .


ジャラジャラー


いつ出るのよこれ。。。


: : :








そして50年の月日が流れた。










100,000,000回経過・・・


(╯:.;゚;Д;゚;.:)╯ハァハァ︵  . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

ジャラジャラー


(:.;゚;д;゚;.:) ジーッ ... 表1枚 裏29枚







キタ━━━ヽ(゚∀゚)ノ━( ゚∀)ノ━(  ゚)ノ━ヽ(  )ノ━ヽ(゚  )━ヽ(∀゚ )ノ━ヽ(゚∀゚)ノ ━━━!!!!








というわけで表1枚は、理論上は約1億回に1回起きる超レアケース。

突然ですが、ジャンボ宝くじを買って1等が出たら驚きますか?驚くという方、正常な感覚の持ち主です。全然驚かないよ、よくあることさ、という方、私のために当ててくださいw ジャンボ宝くじ1等の理論確率は約1000万分の1です。

現実的にもっとありえない、1億分の1の出来事(30枚中1枚だけ表、30人中1人だけ当選)が起きたということは、何かしら前提が間違っているということ。

すなわち、次のいずれか1つまたは両方がおかしいと考えられます。

  1. データが正しい・・・という前提がおかしい
    (30人に1人っていうのはちょっと盛ったよ、テヘッなケース)
  2. 厳正なランダム抽選が行われている・・・という前提がおかしい
    (地元民いっぱい落としちゃったよ、ゲスッなケース)


仮に20人に結果を聞いたのを「30人ほど」と大げさに言った場合でも、確率1万分の1です…。ということは、統計学的にみると、後者の可能性のほうが高いということになります。

ちなみにこの大会名でツイッターやブログを検索しても、該当地周辺の落選が目立つとの声がちらほらあるんですよね。当然そういう噂が先にあり、ツイッター利用者やブロガーや記事情報提供者にバイアスをかけている可能性もあり得ることではありますが…。気になる方は当落状況ツイートまとめをご覧ください。

以前ボストンマラソンの記事でも書きましたが、個人的に地元枠/遠方枠/海外枠を作ること自体には全然問題はないと思います。ただ、なんらかの事情により恣意的と誤解されるような抽選方法を実施している場合は、できる範囲で意図や枠数などを公開するのがフェアなのでは、と思います。

ちなみに、他のマラソン大会はどうかというと、今回のような極端なデータは見たことがないです(もし知っていたら教えてください)。東京マラソン全参加(一般7回連続当選だと93万分の1)が多数いるという話も、チャリティ・スポンサー枠などで説明できてしまうため、怪しいと思った例はいままで見たことがありません。東京マラソンについてはまた後日書きたいと思います。

さて、ここからは本題の数学の話が始まりますので、
数式アレルギーのある方はブラウザを閉じて構いませんw

あ、でもその前に、コメントは大歓迎です。
そして、ブログ村ランキングボタン↓ポチッも (´∀`)q

名古屋ウィメンズマラソンの抽選が作為的だと思う方はこちらへ





<数学開始>

上の試行は、高校数学で習う統計の二項分布でモデル化できます。

成功確率がpのとき、n回の独立な試行を行ったときの成功回数がkとなる確率は、


ただし k = 0, 1, 2, ..., n。二項係数の部分は、

.


今の問題設定だと、変数はn=30、k=1、p=約0.5。

Rという統計ソフトで計算すると、30枚中1枚表になる確率 f(k=1; n=30, p) は・・・。
> dbinom(1, 30, 10000/19384)
[1] 1.129981e-08 
となり確率は10のマイナス8乗=約1億分の1となります(ただし p=10000/19384 で計算)。


コイン30枚同時投げで表1枚のみが出るのは、30枚同時投げを約一億回繰り返さないといけないことがわかりました。

表1枚は、偶然の極端な例・・・?
(ヾノ・∀・`)ナイナイ

某ウィメンズマラソンの抽選の話に戻すと、30人中1人のみが当選するというのは、30人がエントリーした例を平均1億回探してやっと1ケース見つかるということ。つまり、ありえない。

あと念のため、1人の当選者と29人の落選者を寄せ集めて30人の集合を作ったわけではないですからね。30人のランナーがいたときに、結果を聞いたら1人の当選者と29人の落選者がいた、です。両者は大違いです。

n=30であるものの、単純にこのサンプルから倍率を点推定しても30倍となるわけで、1.9倍とはかけ離れていますねよね…。

※一般的な注意点として、サンプル数が小さい時に安易に結論を導かないことです。例えばコインを2回投げて表が2回出た時、そのコインは表が出る確率100%なのでしょうか?それは経験確率といい、理論的な確率とは違います。統計の基本として、試行回数が多いほど経験確率は理論確率に近づきます(大数の法則)。

一応二項検定をすると、
 - 帰無仮説: 真の倍率は1.9と同じかそれより小さい
 - 対立仮説: 真の倍率は1.9より大きい
> binom.test(1, 30, p = 10000/19384, "less")
(略)
number of successes = 1, number of trials = 30, p-value = 1.165e-08
alternative hypothesis: true probability of success is less than 0.5158894 
有意水準αが5%(論文でよく出てくる一般的な水準)、1%(よりシビア、自然科学や選挙速報の当確判定など)、0.1%(もっとシビア)のいずれにおいても、有意確率 p-value < α となります。よって帰無仮説は棄却され、残念ながらこのサンプルからの倍率は1.9より統計的に有意に大きいという結論になってしまいます。


参考文献


関連サイト

ブログ内関連記事
▼記事がお役にたったら、いいね!お願いします♪




4 件のコメント:

  1. うわあ、なんかかっこいい記事やなあ。こんなん書きたい(笑)

    1.9ってな、なご、や?(^-^;

    返信削除
    返信
    1. こんなランナー受けしなさそうな数学記事に
      食いついてくださるとは嬉しいです。

      1.9はな、なご・・・そうです、そこです・・・。
      大会ロゴとか記念品とか、他にない感じの大会のようで
      応援はしたいので、今後ますます魅力のある大会に
      なるよう願うばかりです。。。

      削除
  2. お…面白いです(*ノε` )σ
    あ、でも、成功確率がpのとき・・・あたりから読み飛ばしちゃいましたが…

    もしや、静岡県民も日帰りで参加できると勘違いされて落とされたのかしらっ( ゚Д゚)‼
    伊豆の人間は日帰りでフルは無理なんで、名古屋にお泊りしますよー。
    だから走らせてくださーい…

    …ってそういう話題ではないですね('A`)
    抽選なのですから、公平に行ってほしいですね。
    なんだか興ざめしちゃいますが、
    どこもかしこも定員オーバーになって
    走りたくても走れないランナーの足元を見られているようで
    悔しくなってきます。
    (でも2次募集に懸けるwww)

    返信削除
    返信
    1. > 成功確率がpのとき・・・あたりから読み飛ばしちゃいましたが…
      普通そうですよねw
      今回は書きたいように好き放題書いてみました。
      後悔はしてない( ー`дー´)キリッ

      ツイッターでは、東洋経済の疑惑記事が出る前から、
      「東海4県の方は落選率高い…浜松は特に落選率高い気がする」
      ってつぶやいてる方がいました・・・。

      定員オーバー問題は、ランナーの数に対して
      明らかに大会数少ないですよねー。
      アメリカは当日受付で走れる大会もあるので、
      走らなきゃ死ぬってなったときはぜひお越しくださいw

      削除