ATP 2020シーズンにおける1stセット獲得要因分析
今年もテニスがオフシーズンなので、この期間にちょっとデータで遊んでみたいと思います。
分析対象はATPツアーの10月と11月の大会。この期間だけなのはリアルタイムに収集しないといけない数値の記録がここしかないから(少なくてすいません)。
なので当然分析結果の効果範囲も限定的なものになるのであしからず。
基本的には2値選択モデルとしてのプロビットモデルでやってみました。
非説明変数を勝敗またはゲームの獲得として、いろんな説明変数を入れて見ました。
ざっくりいうと、
セット獲得に影響する要素は何でどれくらいか
ってことを考えてみたいと思います。
考慮に入れた事項は次の通り。
○世界ランク
対戦時の世界ランクと対戦相手との差
○年齢
対戦時の年齢と相手との年齢差
○対戦成績
過去の対戦成績をサーフェス別や直近3年などに分けた場合も含めて考える
○直近の成績
直近の試合における勝敗数。調子が判断できるかなと。
○サーフェス別の得意不得意
サーフェスごとでの能力差を考慮
○レーティング
https://tennisabstract.com/reports/atp_elo_ratings.html
このサイトにあるレーティングと相手との差
その他考えられる要素を色々試して分析した結果がこちら。
Probit regression, reporting marginal effects Number of obs = 188
LR chi2(10) = 63.29
Prob > chi2 = 0.0000
Log likelihood = -98.666085 Pseudo R2 = 0.2428
------------------------------------------------------------------------------
stwin | dF/dx Std. Err. z P>|z| x-bar [ 95% C.I. ]
---------+--------------------------------------------------------------------
ranksa | -.0023839 .0015295 -1.56 0.119 .031915 -.005382 .000614
agesa | .0243766 .0065283 3.73 0.000 -.005319 .011581 .037172
near3h~p | -.0467046 .0283287 -1.65 0.099 .010638 -.102228 .008819
ssfhth | .1330136 .0612685 2.17 0.030 .005319 .01293 .253098
opoarm~t*| -.1748498 .1110311 -1.52 0.129 .175532 -.392467 .042767
near10sa | .0812508 .0306424 2.65 0.008 .010638 .021193 .141309
home*| .2388231 .1193052 1.83 0.067 .12766 .004989 .472657
halfel~a | -.0030921 .0006335 -4.88 0.000 0 -.004334 -.00185
sace | -.0437021 .0187531 -2.33 0.020 7.03206 -.080458 -.006947
s1stspw | .0255358 .0148394 1.72 0.085 74.8777 -.003549 .054621
---------+--------------------------------------------------------------------
obs. P | .5
pred. P | .503949 (at x-bar)
------------------------------------------------------------------------------
(*) dF/dx is for discrete change of dummy variable from 0 to 1
z and P>|z| correspond to the test of the underlying coefficient being 0
この中で統計的に有意といえそうなものは
agesa=年齢差
1歳若いごとに2%獲得率が上昇
ssfhth=対戦サーフェスでの対戦成績
勝ち越し1ごとに13%獲得率が上昇
ただ、相手は負け越し1ごとに13%低下するため、実質勝ち越し1で26%上昇する
near10sa=直近10戦の戦歴の差
勝ち越し数が相手より1多いほどに獲得率が8%低下
home=選手の登録国での試合か
登録国であれば23%獲得率が上昇
halfel~a=サーフェスで修正したレーティング値の対戦相手との差
相手よりレーティングが1上回るたびに0.3%上昇
sace=今季の対戦サーフェスでの1試合あたりのエースの数
1増えるたびに4%獲得数が低下
s1stspw=今季の対戦サーフェスでの1stサーブのポイント獲得率
1増えるごとに獲得数が2.5%上昇
となっています。
この中で謎なのは直近10戦の戦歴が勝ち越しているほど獲得率が低下することでしょうか。
これはどう捉えたらいいものか。
トーナメントで勝ちが続くと相手も強くなるとか、勝っていると試合数が増えるので疲労がたまるとかが穏当な説明か。
エース数がマイナスに出ている説明としては、サービスエースが多い=ビッグサーバー寄り、と考えるとタイブレークに行く確率が高く、セットを落とすことが相対的に増えるといういう説明ができそうです。
ただ、サービス力が重要というのは疑っていなかったのでこの結果は驚きでした。
ホーム補正や対戦成績が与える影響が思ったよりも大きく出たのも驚きでした。
あと最近選手寿命が長くなっていて麻痺していていたのですが年齢が若い方が強いってのも確かにテニスの歴史的にもしっくり来ます。BIG3とかはレーティングや1stサーブポイント獲得率で上回る場合が多いので年齢のマイナスが感じられないでしょう。
とまとめてきましたが、疑似決定係数という当てはまりを示す数値が、
Pseudo R2 = 0.2428
とあまり高くできなかったのでこの分析の説明力はちょっと弱いです。
大まかなプラスマイナスは参考にしても良いと思いますが、細かい数値に完成てあくまで参考程度ということになりそうです。
今後もデータ数や変数を追加しながら改良していきたいですね。