データでテニス観戦を楽しむ

海外テニスの感想等を書くブログです

ATP 2020シーズンにおける1stセット獲得要因分析

今年もテニスがオフシーズンなので、この期間にちょっとデータで遊んでみたいと思います。

 

分析対象はATPツアーの10月と11月の大会。この期間だけなのはリアルタイムに収集しないといけない数値の記録がここしかないから(少なくてすいません)。

 

なので当然分析結果の効果範囲も限定的なものになるのであしからず。

 

基本的には2値選択モデルとしてのプロビットモデルでやってみました。

非説明変数を勝敗またはゲームの獲得として、いろんな説明変数を入れて見ました。

ざっくりいうと、

 セット獲得に影響する要素は何でどれくらいか

ってことを考えてみたいと思います。

 

考慮に入れた事項は次の通り。

○世界ランク

 対戦時の世界ランクと対戦相手との差

○年齢

 対戦時の年齢と相手との年齢差

○対戦成績

 過去の対戦成績をサーフェス別や直近3年などに分けた場合も含めて考える

○直近の成績

 直近の試合における勝敗数。調子が判断できるかなと。

サーフェス別の得意不得意

 サーフェスごとでの能力差を考慮

○レーティング

https://tennisabstract.com/reports/atp_elo_ratings.html

 このサイトにあるレーティングと相手との差

 

その他考えられる要素を色々試して分析した結果がこちら。

Probit regression, reporting marginal effects           Number of obs =    188

                                                        LR chi2(10)   =  63.29

                                                        Prob > chi2   = 0.0000

Log likelihood = -98.666085                             Pseudo R2     = 0.2428

 

------------------------------------------------------------------------------

   stwin |      dF/dx   Std. Err.      z    P>|z|     x-bar  [    95% C.I.   ]

---------+--------------------------------------------------------------------

  ranksa |  -.0023839   .0015295    -1.56   0.119   .031915  -.005382  .000614

   agesa |   .0243766   .0065283     3.73   0.000  -.005319   .011581  .037172

near3h~p |  -.0467046   .0283287    -1.65   0.099   .010638  -.102228  .008819

  ssfhth |   .1330136   .0612685     2.17   0.030   .005319    .01293  .253098

opoarm~t*|  -.1748498   .1110311    -1.52   0.129   .175532  -.392467  .042767

near10sa |   .0812508   .0306424     2.65   0.008   .010638   .021193  .141309

    home*|   .2388231   .1193052     1.83   0.067    .12766   .004989  .472657

halfel~a |  -.0030921   .0006335    -4.88   0.000         0  -.004334  -.00185

    sace |  -.0437021   .0187531    -2.33   0.020   7.03206  -.080458 -.006947

 s1stspw |   .0255358   .0148394     1.72   0.085   74.8777  -.003549  .054621

---------+--------------------------------------------------------------------

  obs. P |         .5

 pred. P |    .503949  (at x-bar)

------------------------------------------------------------------------------

(*) dF/dx is for discrete change of dummy variable from 0 to 1

    z and P>|z| correspond to the test of the underlying coefficient being 0

 

この中で統計的に有意といえそうなものは

agesa=年齢差

 1歳若いごとに2%獲得率が上昇

ssfhth=対戦サーフェスでの対戦成績

 勝ち越し1ごとに13%獲得率が上昇

 ただ、相手は負け越し1ごとに13%低下するため、実質勝ち越し1で26%上昇する

near10sa=直近10戦の戦歴の差

 勝ち越し数が相手より1多いほどに獲得率が8%低下

home=選手の登録国での試合か

 登録国であれば23%獲得率が上昇

halfel~a=サーフェスで修正したレーティング値の対戦相手との差

 相手よりレーティングが1上回るたびに0.3%上昇

sace=今季の対戦サーフェスでの1試合あたりのエースの数

 1増えるたびに4%獲得数が低下

s1stspw=今季の対戦サーフェスでの1stサーブのポイント獲得率

 1増えるごとに獲得数が2.5%上昇

となっています。

 

この中で謎なのは直近10戦の戦歴が勝ち越しているほど獲得率が低下することでしょうか。

これはどう捉えたらいいものか。

トーナメントで勝ちが続くと相手も強くなるとか、勝っていると試合数が増えるので疲労がたまるとかが穏当な説明か。

 

エース数がマイナスに出ている説明としては、サービスエースが多い=ビッグサーバー寄り、と考えるとタイブレークに行く確率が高く、セットを落とすことが相対的に増えるといういう説明ができそうです。

ただ、サービス力が重要というのは疑っていなかったのでこの結果は驚きでした。 

 

ホーム補正や対戦成績が与える影響が思ったよりも大きく出たのも驚きでした。

 

あと最近選手寿命が長くなっていて麻痺していていたのですが年齢が若い方が強いってのも確かにテニスの歴史的にもしっくり来ます。BIG3とかはレーティングや1stサーブポイント獲得率で上回る場合が多いので年齢のマイナスが感じられないでしょう。

 

とまとめてきましたが、疑似決定係数という当てはまりを示す数値が、

Pseudo R2     = 0.2428

とあまり高くできなかったのでこの分析の説明力はちょっと弱いです。

 

大まかなプラスマイナスは参考にしても良いと思いますが、細かい数値に完成てあくまで参考程度ということになりそうです。

 

今後もデータ数や変数を追加しながら改良していきたいですね。