Open Guion-Rem24 opened 2 years ago
@Guion-Rem24
レギュラーシーズン/カンファレンス/NCAAトーナメントもそれぞれどういうトーナメントなのか、ドメイン知識いるな。
な感じなんかな。
@masafumi330 まだ読みきれてないからあれだけど、このサイトがわかりやすかった https://binballtrip.com/ncaa-division-1/
ディビジョンは大学の意向(運動部の予算)で決まる。強さは関係無い。
ディビジョンが上がるにつれてより大きな予算が必要となる
NCAA D1には全部で32個のカンファレンスが存在する。カンファレンスとはリーグ戦を行う大学の連盟だ。 各カンファレンスは「同じような実力」でなお且つ「地理的に近い」大学で組織される傾向が強い。 NCAAトーナメントへ出場するためには「カンファレンストーナメントで優勝する」か「シーズン中に良い成績を残して選考委員会に招待される」かのどちらかをクリアしなければならない。端的に言えば、弱いカンファレンスに所属していれば、カンファレンストーナメントで優勝する可能性は高いが、一方、シーズン中の戦いがあまり評価されないため招待を受けにくい。
レギュラーシーズン (ノンカンファレンス期)
所属している大学体育協会、ディビジョン、カンファレンスに関係無く試合を行う期間 各大学は自由にスケジュールを組める 試合数は12試合前後である。
レギュラーシーズン(カンファレンス期): 〜3月上旬
試合数はどこのカンファレンスでも18試合前後 カンファレンス内の戦績で3月に始まるカンファレンストーナメントのシード順位が決まる
カンファレンストーナメント
カンファレンストーナメントはNCAAトーナメント出場校を決める一発勝負の大会 各カンファレンスの優勝校は自動的にNCAAトーナメント出場権を獲得
ポストシーズントーナメント(NCAAトーナメント) 各カンファレンスの優勝校32校による最終決戦
ここでは,予測のために最低限必要となるデータについての説明
このサイト このサイト - チームIDとチーム名
バスケットボールのシーズンは年をまたぐので,2021-22のような表記が見られたりするが,慣例的には シーズン終了の年(今年の21-22の場合,2022)を表記することになっている
MTeams.csv
4桁の数字によって各学校にIDが割り振られている. データとして参照できるのは,対戦する両チームがDivision-Iに割り振られている試合のみ.
[TeamID]
1000から1999までの重複のない4桁の数字. 各シーズンでIDが変わることはなく,一貫として同一のIDを有する.男子と女子のチームでの混乱を避けるため,女子は3000-3999の4桁で割り振られている.
[TeamName]
16文字以内に省略された大学名. チーム名には
,
や"
は含まれないが,-
やスペースが含まれるケースがある.[FirstD1Season]
各チームの初めてDivision-Iに割り振られた年. データの都合上,1985年以前に初めてDivision-Iに割り振られたチームは統一して1985年としている.
[LastD1Season]
各チームの最後にDivision-Iに割り振られた年.
MSeasons.csv
各シーズンの情報が格納されている.
[Season]
シーズンの年.今シーズンは2022としてカウント.
[DayZero]
日付. 他のファイルに記載されている
DayNum
の分だけ,DayZeroに加えることで,対象の試合の日付を知ることができる.[RegionW, RegionX, RegionY, RegionZ]
準決勝の地区.4地区をアルファベット順にして,W/X/Y/Zに当てはめる.
MNCAATourneySeeds.csv
各NCAAトーナメントにおける全チームのシードを示す.毎年64~68行. 4つの"play-in"ゲームが第1週の木曜日にRound1に入る64チームの最終フィールドにつながる.
[Season]
トーナメントが行われる年.
[Seed]
3/4文字で表記される. 1文字目は地域を表すW/X/Y/Zのいずれか. 次の2桁の数字がシードを表す. 4文字目を含むチームは"First-Four" Gameに選出されたチーム.対戦するチームの上3桁と同一となるため,チームIDが低い順にa/bを付与する.
[TeamID]
MTeams.csvに記載されているチームID
MRegularSeasonCompactresults.csv
DayNumが0から132までのすべての試合についての結果が記載されている.各年によって,DayNumが132になる前にRegular Seasonの試合が終わる場合もある.Selection Sunday(3/13?)以前の試合結果はここに記載される.
[Season]
シーズン
[DayNum]
0から132までの数字.トルネードなどで延期された試合は,元の日付で記載.
[WTeamID]
勝利したチームのID.ホームかアウェイかはここではわからない.
[WScore]
勝利したチームの得点が記載.
[LTeamID]
敗北したチームのチームID.
[LScore]
敗北したチームの得点が記載.つまり
WScore>LScore
.[WLoc]
1文字. 会場がホームなら"H",アウェイなら"A",中立なら"N"
[NumOT]
0以上の整数. 延長の数.
MNCAATourneyCompactResults
NCAAトーナメントの各ゲームの結果が示されてる フォーマットは
MRegularSeasonCompactResults
と同じ 全ゲームで試合場所はNuetral(WLoc=N) 各シーズン63〜67試合であり、試合数はその年のplay-in gameの試合数によって変動する. (play-in gameはday134/135で行われる)スケジュールをまとめると以下の通り.
MSampleSubmissionStage1
submissionのファイルフォーマットについて 勝率は50%に圧縮されている(と考える?)
submissionファイルには,1年以上の全てのトーナメントマッチアップがリストアップされており,
Stage1
では,2016から2021のNCAAトーナメントマッチアップに対して予測する必要がある.Stage2
では,今シーズンのNCAAトーナメントの全試合に対して予測をする.トーナメント出場チームが68チームであれば,組み合わせは 68C2=2,278試合,5年分で2,278 x 5 = 11,390なので,
11,390行のデータ
が格納されている必要がある.ID
14文字の文字列.SSSS_XXXX_YYYYPred
チームIDがXXXXの勝率を記載ここの勝率はXXXXのみであるが,自動で対戦チーム(YYYY)の勝率も計算して評価しますよーと言ってる