hankehly / JapanHorseRaceAnalytics

MIT License
1 stars 0 forks source link

Report KAB duplicate key issue to JRDB #27

Open hankehly opened 8 months ago

hankehly commented 8 months ago
with
  duplicates as (
  select
    `開催キー_場コード`,
    `開催キー_年`,
    `開催キー_回`,
    `開催キー_日`,
    -- 同じ開催キーのレースは基本的に同じ日に行われるが、天気によって延期されることが稀にある(例: 2011年1小倉7)
    -- そのため「開催キー + 年月日」が本当のキーとなる。
    -- 2023/12/17時点の最新データに、同じ開催キーのレースで年月日が異なるレコードは10件あった。
    `年月日`,
    count(*)
  from
    jhra_raw.raw_jrdb__kab
  group by
    `開催キー_場コード`,
    `開催キー_年`,
    `開催キー_回`,
    `開催キー_日`,
    `年月日`
  having
    count(*) > 1
  )
select
  row_number() over (partition by `開催キー_場コード`, `開催キー_年`, `開催キー_回`, `開催キー_日`, `年月日` order by kab_sk) rn,
  *
from
  jhra_raw.raw_jrdb__kab
where
  (`開催キー_場コード`, `開催キー_年`, `開催キー_回`, `開催キー_日`, `年月日`) in (select `開催キー_場コード`, `開催キー_年`, `開催キー_回`, `開催キー_日`, `年月日` from duplicates)
order by
  `開催キー_場コード`, `開催キー_年`, `開催キー_回`, `開催キー_日`, `年月日`