ML4Keiba の展望
ML4Keiba としてデータを集めるのはいいが、その後についてきちんと考えをまとめていなかった。 マ イルストーンというほど定かではないが、現在考えているいろいろなことをメモとして残す。
What までは書いてあるが、実際の具体的な How については自分の頭の中にあるだけだ。 これもどこかきちんと出力しておきたいが……また別の問題が生じるかもしれないので、後々考えることにする。
内容
- 各種レーティング
- 血統
- 騎手成績
- 厩舎成績
- コース内外の有利・不利
- 脚質推定
- 例外処理
- 海外レース
- 同着・降着
- その他アクシデント
- 学習モデルの更新頻度
- 各データを比較したときの順位づけアルゴリズム
- パフォーマンスによる変動幅推定
- 体重による結果の変化
- サービスとしてローンチする前に
レーティング
馬の血統
馬ごとの血統については、どの馬についても確実に情報が存在しているし、時間が経っても変化しない。 レーティングの算出方法についてはいくつかやり方があるだろうが、おそらく良さそうな先例があるはずなのでそれを採用するべき(未だ詳しく調べていない)。
このレーティングさえあれば、新馬戦は もとよりその他のレースでも基礎基本となる議論が展開しうる。
Sire / BMS についても考慮し始めると重み付けに難航する予感がしている。 精度を高めるのは後だと割り切り、まずは各々の算出からはじめる。
最初から完璧なものを作ろうとすると挫折しがちなので、まずは深く考えず親の競走成績で比較する程度でよいだろう。 ちょっとずつ工夫できそうなところを増やしていくことを心がけたい。
騎手成績
各騎手には各々レース結果があるので、そこから統計値が出せるはず。 初年度の新人騎手については 1⃣ 考慮に入れない 2⃣ レースに参加する騎手のうち、相対的な位置に置いて考える などがあろう。 ある程度経験してみないとわからないということもあり、複数年度の騎乗経験に達するまではレーティング不問とする程度がいいかもしれない
個人の力量ではなく、斤量による有利不利を可視化できるだけでもありがたいかも
厩舎成績
所属によっては、出走傾向とか成績に偏りがあるものと思われる。 (私が知っているものだと、メジロ牧場の馬は天皇賞絶対主義だったとかそういう話)
あまり重要なデータとも思えないが、精度を高めるピースにはなりうるかもしれない。