AI競馬予想


 コロナ禍で皆さん色々変わって大変かと思いますが、私も食材の買い出し等を除けば、週1回程度しか電車に乗ることもなく、朝から晩まで生活時間以外1日12時間以上PCの前に座って競馬の事をやってたりします。

今書かずしていつ書く!というタイミングなので、重い腰上げて書いてます。
(冗談でも嘘でもなくネタは大量にあるのですが、なかなか…)

コレ↓

で、デカいのが2発!
8/16 小倉11R小倉記念
7/25 新潟11R 越後S
以前から変わらず、ある程度プログラムがわかる競馬のデータに超詳しい「企画者」という感じなので、何の言語で何のアルゴリズムなのかとかプログラム系はあまり詳しくない。そういう技術系の話ではない。  以前はニュース等で「世の中AIが発達して仕事がなくなる人が増える」など耳にする事はあっても、実際どうなの?と思っていた口だが、実際使ってみる・作ってみると「あ、これやばいかも…」と思ったのが、↑↑のツイートになる。

統計とは少し違う

 AIの予想の概念?みたいなモノを書くと、これまでの統計とは少し違う。
競馬を予想しようとすると、過去のデータを色んな角度で集計し、それらの統計データを元に予想する事が多かったと思う。その馬自身の過去の戦績だったり、種牡馬の産駒成績だったり、騎手・調教師の戦績など色んなデータを並べてみて、ここの数値(実績)が良い、こういう特徴があるなど知識として蓄え、それらのデータを使って予想する事が多いと思う。
上記をさらに掘っていくと、データがたくさんあるので、どのデータが有益でどのデータを信じれば良いのかよくわからん。けど、このデータとこのデータを使えば、馬券が当たった事があるので、このデータを信用(重要視)しよう。中には色んなデータをちょっとずつかき集めて、独自の指数みたいなモノを使っている人も少なくはないと思う。
独自の指数を作ろうとすると、前走タイム指数をベースに、血統の要素・騎手のデータを少し・枠番やコースの実績等々色んな要素をちょっとずつ引っ張って来て、それぞれ持って来る割合をちょっとずついじって、過去のデータと付け合わせて回収率・的中率がどの程度出るかを確認。これだ!と思うバランスの数値で予想するとかなのかなと。作ってみたものの、実際に馬券が当たり続けるような事はそれほど多くなく、時には人の感情によって買う馬券が変わってしまう事もあるだろう。
 手元に馬券本と言われるいろいろな理論の本があるが、どれをみても大体統計系の本が多い。誰も統計を取っていないデータを取って、何か傾向や特徴があると新理論として出されたりしている。が、コレに関しては正直なところやめた方が良いような気がする。

AIで予想するには

 まず、AIで予想しようとすると、いろいろな競馬のデータをAIに学習させる。↑↑のような統計系で予想していた人が理解するには、少し難しいかもしれないが、この「学習」をさせると、そのデータがレースの結果に何%ぐらい影響、どの程度影響するデータなのかがわかる。沢山の種類のデータを学習させると、それぞれがどの程度結果に影響し、どのデータが全く影響しないのかがわかってくる。
 それらの影響するデータ・影響度合いを使って予測するので、すでに最初から最適なバランスで予想されている(らしい)。これまではこういうデータが使えるんじゃないかと想像して、過去のデータを集計して傾向を探るというような事をやっていた。例えば、私の方でも出しているレースごとの次走平均着順。次走レースの平均着順の値が小さければ小さいほど、出走馬のレベルが高く、その中で次走未出走の馬がいれば、注意しておく。というような、出走馬のメンバーレベルだが、学習データに前走のレースIDを入れてしまえば、そんなのも既に考慮されているというような事だった。前走のレースがどの程度今回のレースに影響を与えているか既に、考慮されて要素として最適なバランスで入っていると。
先に書いた、いろんな理論の公開をやめた方が良いと書いたのは、その人しか作れないデータならまだしも、例えば西田式スピード指数のように計算式が公開されていて、ある程度自分でも作れてしまうモノや、データだけを提供している場合はAIの学習データとして使われてしまって、アイデア?理論だけ持って行かれて上手く利用されてしまうような感じがする。全員が全員そうだとは思わないが、大学生なんかが学校の研究テーマでAI予想をしているような記事を見ると、平気でデータを盗用?してAIに学習させて「使えないデータだな」とか書かれているのを見ると、何と言うか腹立たしく思う事があった。学習に使ったそのデータ、どういう人がどういう思いで作ったのか、知ってリスペクトした上でならまだしも…とは思う。まぁwebで公開してしまっている時点で、使われる側もどういう使われ方しても良いと思っているのかもしれないが、「使えないデータ」と馬鹿にするのはちょっと違うんじゃ無いかと。

最適バランス

 ちょっと話は逸れてしまったが、学習したデータから最適なバランスを導いてくれるのがAIと思っていただければ良いかなと。ハイペースの逃げ馬なら割り引いて、中団後方馬を上げ(強くし)、スローなら逆に逃げ馬を上げる(強くする)というような場合、こうだろう…と思ったバランスでいろいろ係数をいじってみたものの、AIが出した最適なモノとでは、AIが出したモノには勝てなかったのが衝撃的で、あ、勝てんわ…と思ってしまった。

競馬のAI化

 AIで競馬予想するのは、先行者有利なのは間違いなく、競馬の場合手に入る学習データがみんなほとんど同じ。お金を出せばある程度のデータが手に入るけど限界があり、そうなってくると独自で有益なデータを作れる方が有利になってくるように思う。
今後、特徴が違ったAIがいろいろ出てくるとは思うけど、企画者のアイディアとそれを実現してしまえば、競馬の世界のAI化もかなり進んでしまうのではなかろうかと。

実用例

 あまり興味なくやらないので書いてしまうけど、手塚治虫の絵切り抜いてAIに学習させ、AIが手塚治虫の絵を描くようになり、ストーリーも書いてしまった「ぱいどん」。あれと同じように、清水成駿の予想印や文章を学習させて、清水成駿AIが書いた予想とか吉冨隆安の実走着差のデータとかも、実際どれだけ距離ロスしたかとか人が映像を見てデータを作っていたりするのを、AIがデータ作ったりとか。調教タイムもチップ導入されれば自動計測されるようになりそうではあるものの、一杯に追ったとか馬也だったとかそんなのも全部AIが判断して、データ作ったりするような日もそう遠くはないのかなと。

2000倍クラスの馬券2回当てれたので、つらつらと書いてみました。

コメントを残す

メールアドレスが公開されることはありません。

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください