masafumi330 / kaggle_MMLM2022

kaggle "MMLM 2022" competition repo.
1 stars 0 forks source link

Data Section 1 - The Basics #2

Open Guion-Rem24 opened 2 years ago

Guion-Rem24 commented 2 years ago

ここでは,予測のために最低限必要となるデータについての説明

このサイト このサイト - チームIDとチーム名

バスケットボールのシーズンは年をまたぐので,2021-22のような表記が見られたりするが,慣例的には シーズン終了の年(今年の21-22の場合,2022)を表記することになっている

MTeams.csv

4桁の数字によって各学校にIDが割り振られている. データとして参照できるのは,対戦する両チームがDivision-Iに割り振られている試合のみ.

[TeamID]

1000から1999までの重複のない4桁の数字. 各シーズンでIDが変わることはなく,一貫として同一のIDを有する.男子と女子のチームでの混乱を避けるため,女子は3000-3999の4桁で割り振られている.

[TeamName]

16文字以内に省略された大学名. チーム名には,"は含まれないが,-やスペースが含まれるケースがある.

[FirstD1Season]

各チームの初めてDivision-Iに割り振られた年. データの都合上,1985年以前に初めてDivision-Iに割り振られたチームは統一して1985年としている.

[LastD1Season]

各チームの最後にDivision-Iに割り振られた年.

MSeasons.csv

各シーズンの情報が格納されている.

[Season]

シーズンの年.今シーズンは2022としてカウント.

[DayZero]

日付. 他のファイルに記載されているDayNumの分だけ,DayZeroに加えることで,対象の試合の日付を知ることができる.

[RegionW, RegionX, RegionY, RegionZ]

準決勝の地区.4地区をアルファベット順にして,W/X/Y/Zに当てはめる.

2012の場合,East,MidWest,South,Westの4地区. W=East,X=MidWest,Y=South,Z=West, 対戦は,W v.s. X,Y v.s. Z またMNCAATourneySeedファイルではEastで2ndシードだったOhio StateはW02と表記される.

MNCAATourneySeeds.csv

各NCAAトーナメントにおける全チームのシードを示す.毎年64~68行. 4つの"play-in"ゲームが第1週の木曜日にRound1に入る64チームの最終フィールドにつながる.

[Season]

トーナメントが行われる年.

[Seed]

3/4文字で表記される. 1文字目は地域を表すW/X/Y/Zのいずれか. 次の2桁の数字がシードを表す. 4文字目を含むチームは"First-Four" Gameに選出されたチーム.対戦するチームの上3桁と同一となるため,チームIDが低い順にa/bを付与する.

[TeamID]

MTeams.csvに記載されているチームID

MRegularSeasonCompactresults.csv

DayNumが0から132までのすべての試合についての結果が記載されている.各年によって,DayNumが132になる前にRegular Seasonの試合が終わる場合もある.Selection Sunday(3/13?)以前の試合結果はここに記載される.

[Season]

シーズン

[DayNum]

0から132までの数字.トルネードなどで延期された試合は,元の日付で記載.

[WTeamID]

勝利したチームのID.ホームかアウェイかはここではわからない.

[WScore]

勝利したチームの得点が記載.

[LTeamID]

敗北したチームのチームID.

[LScore]

敗北したチームの得点が記載.つまりWScore>LScore

[WLoc]

1文字. 会場がホームなら"H",アウェイなら"A",中立なら"N"

[NumOT]

0以上の整数. 延長の数.

MNCAATourneyCompactResults

NCAAトーナメントの各ゲームの結果が示されてる フォーマットはMRegularSeasonCompactResultsと同じ 全ゲームで試合場所はNuetral(WLoc=N) 各シーズン63〜67試合であり、試合数はその年のplay-in gameの試合数によって変動する. (play-in gameはday134/135で行われる)

スケジュールをまとめると以下の通り.

MSampleSubmissionStage1

submissionのファイルフォーマットについて 勝率は50%に圧縮されている(と考える?)

submissionファイルには,1年以上の全てのトーナメントマッチアップがリストアップされており,Stage1では,2016から2021のNCAAトーナメントマッチアップに対して予測する必要がある.Stage2では,今シーズンのNCAAトーナメントの全試合に対して予測をする.

トーナメント出場チームが68チームであれば,組み合わせは 68C2=2,278試合,5年分で2,278 x 5 = 11,390なので,11,390行のデータが格納されている必要がある.

ここの勝率はXXXXのみであるが,自動で対戦チーム(YYYY)の勝率も計算して評価しますよーと言ってる

masafumi330 commented 2 years ago

@Guion-Rem24

レギュラーシーズン/カンファレンス/NCAAトーナメントもそれぞれどういうトーナメントなのか、ドメイン知識いるな。

な感じなんかな。

Guion-Rem24 commented 2 years ago

@masafumi330 まだ読みきれてないからあれだけど、このサイトがわかりやすかった https://binballtrip.com/ncaa-division-1/

Divisionについて

ディビジョンは大学の意向(運動部の予算)で決まる。強さは関係無い。

ディビジョンが上がるにつれてより大きな予算が必要となる

カンファレンスについて

NCAA D1には全部で32個のカンファレンスが存在する。カンファレンスとはリーグ戦を行う大学の連盟だ。 各カンファレンスは「同じような実力」でなお且つ「地理的に近い」大学で組織される傾向が強い。 NCAAトーナメントへ出場するためには「カンファレンストーナメントで優勝する」か「シーズン中に良い成績を残して選考委員会に招待される」かのどちらかをクリアしなければならない。端的に言えば、弱いカンファレンスに所属していれば、カンファレンストーナメントで優勝する可能性は高いが、一方、シーズン中の戦いがあまり評価されないため招待を受けにくい。

シーズンについて

試合数はどこのカンファレンスでも18試合前後 カンファレンス内の戦績で3月に始まるカンファレンストーナメントのシード順位が決まる