LPCH remaining tables upload/process UTC times

[x] Also get LPCH datalake version uploaded to som-nero-phi-jonc101 (including datetime fixes)

Datetime/utc conversion:

[X] 1. adt:
- event_time_jittered is string - should be converted
  - check after conversion: select o.anon_id, o.pat_enc_csn_id_coded, o.effective_time_jittered as o1, o.event_time_jittered as o2, o.effective_time_jittered_utc as o3, o.event_time_jittered_utc as o4, c.effective_time_jittered, c.event_time_jittered, c.effective_time_jittered_utc, c.event_time_jittered_utc from lpch.adt o join lpch.adt_retyped c on o.anon_id = c.anon_id and o.pat_enc_csn_id_coded = c.pat_enc_csn_id_coded and o.effective_time_jittered = c.effective_time_jittered and o.event_id_coded = c.event_id_coded where parse_datetime('%Y-%m-%d %H:%M:%S', o.event_time_jittered) <> c.event_time_jittered or o.effective_time_jittered_utc <> extract(datetime from c.effective_time_jittered_utc) or o.event_time_jittered_utc <> extract(datetime from c.event_time_jittered_utc);
- both _utc columns should be timestamps
[X] 2. allergy:
- date_noted_jittered contains only dates, i.e., time part is always 00:00:00, so creating _utc column was unnecessary - should be dropped
[X] 3. clinical_note_meta:
- all 4 _utc columns should be timestamps
[X] 4. demographics:
- how is it that LPCH data contains ppl born in 1950s?
- all of the _jittered fields can be dates - only 5-6 rows contain time info in either death_date_jittered (7 rows out of 0,5mln) and recent_conf_enc_jittered (3 rows out of 0,5mln)
- agreed with Jonathan Chen to drop time info from those 10 rows
  - conversion script: select ANON_ID, extract(date from BIRTH_DATE_JITTERED) as BIRTH_DATE_JITTERED, extract(date from DEATH_DATE_JITTERED) as DEATH_DATE_JITTERED, GENDER, PRIMARY_RACE, ETHNICITY, MARITAL_STATUS, RELIGION, LANGUAGE, INTRPTR_NEEDED_YN, INSURANCE_PAYOR_NAME, CUR_PCP_PROV_MAP_ID, extract(date from RECENT_CONF_ENC_JITTERED) as RECENT_CONF_ENC_JITTERED, RECENT_HT_IN_CMS, RECENT_WT_IN_KGS, BMI, CHARLSON_SCORE, N_HOSPITALIZATIONS, DAYS_IN_HOSPITAL from lpch.demographics;
- Unique key: anon_id
  - conversion check: select o.anon_id, o.birth_date_jittered as o1, o.death_date_jittered as o2, o.recent_conf_enc_jittered as o3, c.birth_date_jittered, c.death_date_jittered, c.recent_conf_enc_jittered from lpch.demographics o join lpch.demographics_copy c using (anon_id) where o.birth_date_jittered <> datetime(c.birth_date_jittered) or o.death_date_jittered <> datetime(c.death_date_jittered) or o.recent_conf_enc_jittered <> datetime(c.recent_conf_enc_jittered);
  - conversion check result (dropped time information): Row anon_id o1 o2 o3 birth_date_jittered death_date_jittered recent_conf_enc_jittered 1 JC1149601 2017-05-27T00:00:00 2017-11-25T14:30:00 2017-11-08T00:00:00 2017-05-27 2017-11-25 2017-11-08 2 JC1021008 2015-02-25T00:00:00 2017-08-09T21:30:00 2017-08-09T21:30:00 2015-02-25 2017-08-09 2017-08-09 3 JC1011217 2017-05-04T00:00:00 2018-05-18T16:35:00 2017-12-23T00:00:00 2017-05-04 2018-05-18 2017-12-23 4 JC972749 2018-04-22T00:00:00 2018-05-21T01:50:00 2018-05-21T01:50:00 2018-04-22 2018-05-21 2018-05-21 5 JC626468 1995-05-03T00:00:00 2016-04-30T16:45:00 2016-04-22T00:00:00 1995-05-03 2016-04-30 2016-04-22 6 JC869854 1996-11-01T00:00:00 2017-01-30T01:08:00 2017-01-28T00:00:00 1996-11-01 2017-01-30 2017-01-28 7 JC871100 2015-02-08T00:00:00 2016-03-30T15:05:00 2016-03-30T15:05:00 2015-02-08 2016-03-30 2016-03-30
[X] 5. diagnosis:
- start_date_jittered is mostly a date (around 10mln rows are 00:00:00)
- noted_date_jittered is a date - has only 00:00:00 times
- hx_date_of_entry_jittered is a date - has only 00:00:00 times
- resolved_date_jittered - has only 00:00:00 times
- end_date_jittered has 15mln rows of nulls next most significant is 00:00:00 with 140718 rows
- _utc fields for dates should be dropped
- Unique key: anon_id, line, pat_enc_csn_id_coded, dx_id, start_date_jittered, source
  - check after conversion: select o.anon_id, o.line, o.pat_enc_csn_id_coded, o.dx_id, o.start_date_jittered, o.source, o.noted_date_jittered as o1, o.hx_date_of_entry_jittered as o2 , o.resolved_date_jittered as o3, o.start_date_jittered_utc as o4, o.end_date_jittered_utc as o5, c.noted_date_jittered, c.hx_date_of_entry_jittered, c.resolved_date_jittered, c.start_date_jittered_utc, c.end_date_jittered_utc from lpch.diagnosis o join lpch.diagnosis_copy c on o.anon_id = c.anon_id and o.line = c.line and o.pat_enc_csn_id_coded = c.pat_enc_csn_id_coded and o.dx_id = c.dx_id and o.start_date_jittered = c.start_date_jittered and o.source = c.source where extract(date from o.noted_date_jittered) <> c.noted_date_jittered or extract(date from o.hx_date_of_entry_jittered) <> c.hx_date_of_entry_jittered or extract(date from o.resolved_date_jittered) <> c.resolved_date_jittered or timestamp(o.start_date_jittered_utc) <> c.start_date_jittered_utc or timestamp(o.end_date_jittered_utc) <> c.end_date_jittered_utc;
[X] 6. family_hx:
- contact_date_jittered is a date - only has 00:00:00 - drop corresponding _utc field
  - check after conversion: select * from ( select row_number() over() as o_row, o1.o_contact_date_jittered from ( select extract(date from contact_date_jittered) as o_contact_date_jittered from lpch.family_hx order by contact_date_jittered ) o1 ) o2 join ( select row_number() over() as c_row, c1.contact_date_jittered from ( select contact_date_jittered from lpch.family_hx_copy order by contact_date_jittered ) c1 ) c2 on o2.o_row = c2.c_row where o2.o_contact_date_jittered <> c2.contact_date_jittered;
- new conversion script: select * except(contact_date_jittered), extract(date from parse_datetime('%Y-%m-%d %H:%M:%S', contact_date_jittered)) as contact_date_jittered from som-nero-phi-naras-ric.Jon_Chen_data.lpch_family_hx ;
- fixing anon_id: update som-nero-phi-jonc101.lpch.family_hx set anon_id = 'JC' || anon_id where true;
- conversion check: select * from ( select row_number() over() as o_row, o1.o_contact_date_jittered from ( select extract(date from parse_datetime('%Y-%m-%d %H:%M:%S', contact_date_jittered)) as o_contact_date_jittered from som-nero-phi-naras-ric.Jon_Chen_data.lpch_family_hx order by contact_date_jittered ) o1 ) o2 join (select row_number() over() as c_row, c1.contact_date_jittered from ( select contact_date_jittered from som-nero-phi-jonc101.lpch.family_hx order by contact_date_jittered ) c1 ) c2 on o2.o_row = c2.c_row where o2.o_contact_date_jittered <> c2.contact_date_jittered;
[X] 7. lda:
- all _jittered fields have mostly 00:00:00
- _utc fields should be timestamps
  - conversion script: select * except( PLACEMENT_INSTANT_JITTERED_UTC, REMOVAL_INSTANT_JITTERED_UTC), timestamp( PLACEMENT_INSTANT_JITTERED_UTC) as PLACEMENT_INSTANT_JITTERED_UTC, timestamp( REMOVAL_INSTANT_JITTERED_UTC) as REMOVAL_INSTANT_JITTERED_UTC from lpch.lda;
- Unique key: anon_id, pat_enc_csn_id_coded, description, properties_display
  - conversion check: select o.anon_id, o.pat_enc_csn_id_coded, o.description, o.properties_display, o.placement_instant_jittered_utc as o1, o.removal_instant_jittered_utc as o2, c.placement_instant_jittered_utc, c.removal_instant_jittered_utc from lpch.lda o join lpch.lda_copy c on o.anon_id = c.anon_id and o.pat_enc_csn_id_coded = c.pat_enc_csn_id_coded and o.description = c.description and o.properties_display = c.properties_display where o.placement_instant_jittered_utc <> extract(datetime from c.placement_instant_jittered_utc) or o.removal_instant_jittered_utc <> extract(datetime from c.removal_instant_jittered_utc);
[X] 8. mar:
- _utc fields should be timestamps
  - conversion script: select * except( TAKEN_TIME_JITTERED_UTC, SCHEDULED_TIME_JITTERED_UTC), timestamp(taken_time_jittered_utc) as TAKEN_TIME_JITTERED_UTC, timestamp(scheduled_time_jittered_utc) as SCHEDULED_TIME_JITTERED_UTC from lpch.mar;
  - conversion check: select from ( select row_number() over() as o_row, from ( select taken_time_jittered_utc, scheduled_time_jittered_utc from lpch.mar order by taken_time_jittered_utc, scheduled_time_jittered_utc ) o1 ) o2 join ( select row_number() over() as c_row, * from ( select extract(datetime from taken_time_jittered_utc) as c1, extract(datetime from scheduled_time_jittered_utc) as c2 from lpch.mar_copy order by c1, c2 ) c1 ) c2 on o2.o_row = c2.c_row where o2.taken_time_jittered_utc <> c2.c1 or o2.scheduled_time_jittered_utc <> c2.c2;
[X] 9. order_med:
- _utc fields should be timestamps
  - conversion script: select * except( START_TIME_JITTERED_UTC, END_TIME_JITTERED_UTC, DISCON_TIME_JITTERED_UTC, ORDER_TIME_JITTERED_UTC), timestamp( START_TIME_JITTERED_UTC) as START_TIME_JITTERED_UTC, timestamp( END_TIME_JITTERED_UTC) as END_TIME_JITTERED_UTC, timestamp( DISCON_TIME_JITTERED_UTC) as DISCON_TIME_JITTERED_UTC, timestamp( ORDER_TIME_JITTERED_UTC) as ORDER_TIME_JITTERED_UTC from lpch.order_med;
- unique key: anon_id, order_time_jittered, order_med_id_coded
- unique key 2 (pat_enc_csn_id_coded and medication_id can be null): anon_id, pat_enc_csn_id_coded, order_med_id_coded, medication_id
  - conversion check: select o.anon_id, o.pat_enc_csn_id_coded, o.order_med_id_coded, o.medication_id, o.start_time_jittered_utc as o1, o.end_time_jittered_utc as o2, o.discon_time_jittered_utc as o3, o.order_time_jittered_utc as o4, c.start_time_jittered_utc, c.end_time_jittered_utc, c.discon_time_jittered_utc, c.order_time_jittered_utc from lpch.order_med o join lpch.order_med_copy c using (anon_id, pat_enc_csn_id_coded, order_med_id_coded, medication_id) where o.start_time_jittered_utc <> extract(datetime from c.start_time_jittered_utc) or o.end_time_jittered_utc <> extract(datetime from c.end_time_jittered_utc) or o.discon_time_jittered_utc <> extract(datetime from c.discon_time_jittered_utc) or o.order_time_jittered_utc <> extract(datetime from c.order_time_jittered_utc);
- new conversion script: select * except( order_time_jittered, start_time_jittered, end_time_jittered, order_inst, order_start_time, order_end_time, discon_time_jittered), extract(date from parse_datetime('%Y-%m-%d %H:%M:%S', order_time_jittered)) as order_time_jittered, extract(date from parse_datetime('%Y-%m-%d %H:%M:%S', case when start_time_jittered <> '' then start_time_jittered else null end)) as start_time_jittered, extract(date from parse_datetime('%Y-%m-%d %H:%M:%S', case when end_time_jittered <> '' then end_time_jittered else null end)) as end_time_jittered, parse_datetime('%Y-%m-%d %H:%M:%S', case when order_inst <> '' then order_inst else null end) as order_inst, parse_datetime('%Y-%m-%d %H:%M:%S', case when order_start_time <> '' then order_start_time else null end) as order_start_time, parse_datetime('%Y-%m-%d %H:%M:%S', case when order_end_time <> '' then order_end_time else null end) as order_end_time, parse_datetime('%Y-%m-%d %H:%M:%S', case when discon_time_jittered <> '' then discon_time_jittered else null end) as discon_time_jittered, timestamp(case when order_inst <> '' then order_inst else null end, "America/Los_Angeles") as order_inst_utc, timestamp(case when order_start_time <> '' then order_start_time else null end, "America/Los_Angeles") as order_start_time_utc, timestamp(case when order_end_time <> '' then order_end_time else null end, "America/Los_Angeles") as order_end_time_utc, timestamp(case when discon_time_jittered <> '' then discon_time_jittered else null end, "America/Los_Angeles") as discon_time_jittered_utc from som-nero-phi-naras-ric.Jon_Chen_data.lpch_order_med ;
- new conversion check: select o.anon_id, o.pat_enc_csn_id_coded, o.order_med_id_coded, o.medication_id, o.order_time_jittered as o1, o.start_time_jittered as o2, o.end_time_jittered as o3, o.discon_time_jittered as o4, o.order_inst as o5, o.order_start_time as o6, o.order_end_time as o7, c.order_time_jittered, c.start_time_jittered, c.end_time_jittered, c.discon_time_jittered, c.order_inst, c.order_start_time, c.order_end_time from som-nero-phi-naras-ric.Jon_Chen_data.lpch_order_med o join lpch.order_med c using (anon_id, pat_enc_csn_id_coded, order_med_id_coded, medication_id) where o.order_time_jittered <> format_date('%Y-%m-%d', c.order_time_jittered) || ' 00:00:00' or o.start_time_jittered <> format_date('%Y-%m-%d', c.start_time_jittered) || ' 00:00:00' or o.end_time_jittered <> format_date('%Y-%m-%d', c.end_time_jittered) || ' 00:00:00' or o.discon_time_jittered <> format_datetime('%Y-%m-%d %H:%M:%S', c.discon_time_jittered) or o.order_inst <> format_datetime('%Y-%m-%d %H:%M:%S', c.order_inst) or o.order_start_time <> format_datetime('%Y-%m-%d %H:%M:%S', c.order_start_time) or o.order_end_time <> format_datetime('%Y-%m-%d %H:%M:%S', c.order_end_time);
[X] 10. path_report:
- ordering_date_jittering is a date - drop corresponding _utc field
- proc_end_time_jittering is always NULL - drop corresponding _utc field?
- other _jittering fields are almost dates
- _utc fields should be timestamps
  - conversion script: select ANON_ID, PAT_ENC_CSN_ID_CODED, ORDER_ID_CODED, PROC_CODE, DESCRIPTION, extract(date from ORDERING_DATE_JITTERING) as ORDERING_DATE_JITTERING, PROC_START_TIME_JITTERING, PROC_END_TIME_JITTERING, RESULT_TIME_JITTERING, ANON_ACCESSION_NUMBER, AUTHRZING_PROV_MAP_ID, RPT_PRELIM_PROV_MAP_ID, RPT_FINAL_PROV_MAP_ID, BILLING_PROV_MAP_ID, REFERRING_PROV_MAP_ID, PROC_PERF_PROV_MAP_ID, LAB_STATUS_C, LAB_STATUS, ORDER_STATUS_C, ORDER_STATUS, DATA_SOURCE, timestamp( PROC_START_TIME_JITTERING_UTC) as PROC_START_TIME_JITTERING_UTC, timestamp( PROC_END_TIME_JITTERING_UTC) as PROC_END_TIME_JITTERING_UTC, timestamp( RESULT_TIME_JITTERING_UTC) as RESULT_TIME_JITTERING_UTC from lpch.path_report;
- Unique key: anon_id, pat_enc_csn_id_coded, order_id_coded, proc_code, anon_accession_number
  - conversion check: select o.anon_id, o.pat_enc_csn_id_coded, o.order_id_coded, o.proc_code, o.anon_accession_number, o.ordering_date_jittering as o1, o.proc_start_time_jittering_utc as o2, o.proc_end_time_jittering_utc as o3, o.result_time_jittering_utc as o4, c.ordering_date_jittering, c.proc_start_time_jittering_utc, c.proc_end_time_jittering_utc, c.result_time_jittering_utc from lpch.path_report o join lpch.path_report_copy c using (anon_id, pat_enc_csn_id_coded, order_id_coded, proc_code, anon_accession_number) where extract(date from o.ordering_date_jittering) <> c.ordering_date_jittering or o.proc_start_time_jittering_utc <> extract(datetime from c.proc_start_time_jittering_utc) or o.proc_end_time_jittering_utc <> extract(datetime from c.proc_end_time_jittering_utc) or o.result_time_jittering_utc <> extract(datetime from c.result_time_jittering_utc);
[X] 11. procedure:
- start_date_jittered is almost a date - contains ~13mln 00:00:00 rows
- proc_date_jittered is a date - drop corresponding _utc field
- _utc fields should be timestamps
  - conversion script: select ANON_ID, LINE, PAT_ENC_CSN_ID_CODED, PX_ID, CODE, DESCRIPTION, CODE_TYPE, START_DATE_JITTERED, extract(date from PROC_DATE_JITTERED) as PROC_DATE_JITTERED, ADM_DATE_TIME_JITTERED, PERF_PROV_MAP_ID, BILLING_PROV_MAP_ID, ENTRY_PROV_MAP_ID, DEP_MAP_ID, SOURCE, DATA_SOURCE, timestamp( START_DATE_JITTERED_UTC) as START_DATE_JITTERED_UTC, timestamp( ADM_DATE_TIME_JITTERED_UTC) as ADM_DATE_TIME_JITTERED_UTC from lpch.procedure;
- Unique key: anon_id, line, pat_enc_csn_id_coded, px_id, code, source, proc_date_jittered
  - conversion check: select o.anon_id, o.line, o.pat_enc_csn_id_coded, o.px_id, o.code, o.source, o.proc_date_jittered, o.start_date_jittered_utc as o1, o.adm_date_time_jittered_utc as o2, c.start_date_jittered_utc, c.adm_date_time_jittered_utc from lpch.procedure o join lpch.procedure_copy c on o.anon_id = c.anon_id and o.line = c.line and o.pat_enc_csn_id_coded = c.pat_enc_csn_id_coded and o.px_id = c.px_id and o.code = c.code and o.source = c.source and extract(date from o.proc_date_jittered) = c.proc_date_jittered where o.start_date_jittered_utc <> extract(datetime from c.start_date_jittered_utc) or o.adm_date_time_jittered_utc <> extract(datetime from c.adm_date_time_jittered_utc);
[X] 12. radiology_meta:
- ordering_date_jittered is almost a date - contains ~1,3mln 00:00:00 rows
- _utc fields should be timestamps
  - conversion script: select * except( ORDERING_DATE_JITTERED_UTC, PROC_START_TIME_JITTERED_UTC, PROC_END_TIME_JITTERED_UTC, RPT_PRELIM_DTTM_JITTERED_UTC, RPT_FINAL_DTTM_JITTERED_UTC, RESULT_TIME_JITTERED_UTC), timestamp( ORDERING_DATE_JITTERED_UTC) as ORDERING_DATE_JITTERED_UTC , timestamp( PROC_START_TIME_JITTERED_UTC) as PROC_START_TIME_JITTERED_UTC , timestamp( PROC_END_TIME_JITTERED_UTC) as PROC_END_TIME_JITTERED_UTC, timestamp( RPT_PRELIM_DTTM_JITTERED_UTC) as RPT_PRELIM_DTTM_JITTERED_UTC, timestamp( RPT_FINAL_DTTM_JITTERED_UTC) as RPT_FINAL_DTTM_JITTERED_UTC, timestamp( RESULT_TIME_JITTERED_UTC) as RESULT_TIME_JITTERED_UTC from lpch.radiology_meta;
- Unique key: anon_id, pat_enc_csn_id_coded, order_id_coded
  - conversion check: select o.anon_id, o.pat_enc_csn_id_coded, o.order_id_coded, o.ORDERING_DATE_JITTERED_UTC as o1, o.PROC_START_TIME_JITTERED_UTC as o2, o.PROC_END_TIME_JITTERED_UTC as o3, o.RPT_PRELIM_DTTM_JITTERED_UTC as o4, o. RPT_FINAL_DTTM_JITTERED_UTC as o5, o.RESULT_TIME_JITTERED_UTC as o6, c.ORDERING_DATE_JITTERED_UTC, c.PROC_START_TIME_JITTERED_UTC, c.PROC_END_TIME_JITTERED_UTC, c.RPT_PRELIM_DTTM_JITTERED_UTC, c.RPT_FINAL_DTTM_JITTERED_UTC, c.RESULT_TIME_JITTERED_UTC, from lpch.radiology_meta o join lpch.radiology_meta_copy c using (anon_id, pat_enc_csn_id_coded, order_id_coded) where o.ORDERING_DATE_JITTERED_UTC <> extract(datetime from c.ORDERING_DATE_JITTERED_UTC) or o.PROC_START_TIME_JITTERED_UTC <> extract(datetime from c.PROC_START_TIME_JITTERED_UTC) or o.PROC_END_TIME_JITTERED_UTC <> extract(datetime from c.PROC_END_TIME_JITTERED_UTC) or o.RPT_PRELIM_DTTM_JITTERED_UTC <> extract(datetime from c.RPT_PRELIM_DTTM_JITTERED_UTC) or o.RPT_FINAL_DTTM_JITTERED_UTC <> extract(datetime from c.RPT_FINAL_DTTM_JITTERED_UTC) or o.RESULT_TIME_JITTERED_UTC <> extract(datetime from c.RESULT_TIME_JITTERED_UTC);
[X] 13. social_hx:
- what is smoking_quit_date when there's already a smokeless_quit_date_jittered?
- contact_date_jittered is a date - drop _utc field
- SMOKING_QUIT_DATE is a date
- SMOKELESS_QUIT_DATE_JITTERED is a date - drop _utc field
  - conversion script: select ANON_ID, PAT_ENC_CSN_ID_CODED, extract(date from CONTACT_DATE_JITTERED) as CONTACT_DATE_JITTERED, TOBACCO_USER, TOBACCO_PAK_PER_DY, TOBACCO_USED_YEARS, extract(date from SMOKING_QUIT_DATE) as SMOKING_QUIT_DATE, CIGARETTES_YN, PIPES_YN, CIGARS_YN, SNUFF_YN, CHEW_YN, SMOKELESS_TOBACCO_USER, extract(date from SMOKELESS_QUIT_DATE_JITTERED) as SMOKELESS_QUIT_DATE_JITTERED, ALCOHOL_OZ_PER_WK, DATA_SOURCE from lpch.social_hx;
- Unique key: anon_id, pat_enc_csn_id_coded
  - conversion check: select o.anon_id, o.pat_enc_csn_id_coded, o.contact_date_jittered as o1, o.smoking_quit_date as o2, o.smokeless_quit_date_jittered as o3, c.contact_date_jittered, c.smoking_quit_date, c.smokeless_quit_date_jittered from lpch.social_hx o join lpch.social_hx_copy c using (anon_id, pat_enc_csn_id_coded) where o.contact_date_jittered <> datetime(c.contact_date_jittered) or o.smoking_quit_date <> datetime(c.smoking_quit_date) or o.smokeless_quit_date_jittered <> datetime(c.smokeless_quit_date_jittered);
[X] 14. treatment_team:
- _utc fields should be timestamps
  - conversion script: select ANON_ID, PAT_ENC_CSN_ID_CODED, LINE, TRTMNT_TM_BEGIN_DT_JITTERED, TRTMNT_TM_END_DT_JITTERED, NAME, PROV_MAP_ID, PROV_NAME, DATA_SOURCE, timestamp( TRTMNT_TM_BEGIN_DT_JITTERED_UTC) as TRTMNT_TM_BEGIN_DT_JITTERED_UTC, timestamp( TRTMNT_TM_END_DT_JITTERED_UTC) as TRTMNT_TM_END_DT_JITTERED_UTC from lpch.treatment_team;
- Unique key: anon_id, pat_enc_csn_id_coded, line
  - conversion check: select o.anon_id, o.pat_enc_csn_id_coded, o.line, o. TRTMNT_TM_BEGIN_DT_JITTERED_UTC as o1, o. TRTMNT_TM_END_DT_JITTERED_UTC as o2, c. TRTMNT_TM_BEGIN_DT_JITTERED_UTC , c. TRTMNT_TM_END_DT_JITTERED_UTC from lpch.treatment_team o join lpch.treatment_team_copy c using (anon_id, pat_enc_csn_id_coded, line) where o. TRTMNT_TM_BEGIN_DT_JITTERED_UTC <> extract(datetime from c.TRTMNT_TM_BEGIN_DT_JITTERED_UTC) or o. TRTMNT_TM_END_DT_JITTERED_UTC <> extract(datetime from c. TRTMNT_TM_END_DT_JITTERED_UTC );
[X] Copy lpch to som-nero-phi-jonc101: Error copying dataset: User does not have sufficient permission: bigquery.transfers.update is required on project som-nero-phi-jonc101
[X] Upload remaining lpch tables:
- culture_sensitivity
  - Unique key: anon_id, order_proc_id_coded, line
  - assuming all times are PT - will be creating UTC times for all 4 datetime columns
  - old conversion script: select *, timestamp(order_time_jittered, "America/Los_Angeles") as order_time_jittered_utc, timestamp(result_time_jittered, "America/Los_Angeles") as result_time_jittered_utc, timestamp(sens_obs_inst_tm_jittered, "America/Los_Angeles") as sens_obs_inst_tm_jittered_utc, timestamp(sens_anl_inst_tm_jittered, "America/Los_Angeles") as sens_anl_inst_tm_jittered_utc from lpch.culture_sensitivity;
  - old conversion check: select o.anon_id, o.order_proc_id_coded, o.line, o.order_time_jittered as o1, o.result_time_jittered as o2, o.sens_obs_inst_tm_jittered as o3, o.sens_anl_inst_tm_jittered as o4, datetime(c.order_time_jittered_utc, "America/Los_Angeles"), datetime(c.result_time_jittered_utc, "America/Los_Angeles"), datetime(c.sens_obs_inst_tm_jittered_utc, "America/Los_Angeles"), datetime(c.sens_anl_inst_tm_jittered_utc, "America/Los_Angeles"), c.order_time_jittered_utc, c.result_time_jittered_utc, c.sens_obs_inst_tm_jittered_utc, c.sens_anl_inst_tm_jittered_utc from lpch.culture_sensitivity o join lpch.culture_sensitivity_copy c using (anon_id, order_proc_id_coded, line) where datetime(c.order_time_jittered_utc, "America/Los_Angeles") <> o.order_time_jittered or datetime(c.result_time_jittered_utc, "America/Los_Angeles") <> o.result_time_jittered or datetime(c.sens_obs_inst_tm_jittered_utc, "America/Los_Angeles") <> o.sens_obs_inst_tm_jittered or datetime(c.sens_anl_inst_tm_jittered_utc, "America/Los_Angeles") <> o.sens_anl_inst_tm_jittered;
    - Result: 72 records are diffing by +-1h due to daylight saving switches
  - conversion script: select * except( order_time_jittered, result_time_jittered, sens_obs_inst_tm_jittered, sens_anl_inst_tm_jittered ), parse_datetime('%Y-%m-%d %H:%M:%S', case when order_time_jittered <> '' then order_time_jittered else null end) as order_time_jittered, parse_datetime('%Y-%m-%d %H:%M:%S', case when result_time_jittered <> '' then result_time_jittered else null end) as result_time_jittered, parse_datetime('%Y-%m-%d %H:%M:%S', case when sens_obs_inst_tm_jittered <> '' then sens_obs_inst_tm_jittered else null end) as sens_obs_inst_tm_jittered, parse_datetime('%Y-%m-%d %H:%M:%S', case when sens_anl_inst_tm_jittered <> '' then sens_anl_inst_tm_jittered else null end) as sens_anl_inst_tm_jittered, timestamp(case when order_time_jittered <> '' then order_time_jittered else null end, "America/Los_Angeles") as order_time_jittered_utc, timestamp(case when result_time_jittered <> '' then result_time_jittered else null end, "America/Los_Angeles") as result_time_jittered_utc, timestamp(case when sens_obs_inst_tm_jittered <> '' then sens_obs_inst_tm_jittered else null end, "America/Los_Angeles") as sens_obs_inst_tm_jittered_utc, timestamp(case when sens_anl_inst_tm_jittered <> '' then sens_anl_inst_tm_jittered else null end, "America/Los_Angeles") as sens_anl_inst_tm_jittered_utc from som-nero-phi-naras-ric.Jon_Chen_data.lpch_culture_sensitivity;
  - conversion check: select o.anon_id, o.order_proc_id_coded, o.line, o.order_time_jittered as o1, o.result_time_jittered as o2, o.sens_obs_inst_tm_jittered as o3, o.sens_anl_inst_tm_jittered as o4, c.order_time_jittered, c.result_time_jittered, c.sens_obs_inst_tm_jittered, c.sens_anl_inst_tm_jittered, c.order_time_jittered_utc, c.result_time_jittered_utc, c.sens_obs_inst_tm_jittered_utc, c.sens_anl_inst_tm_jittered_utc from som-nero-phi-naras-ric.Jon_Chen_data.lpch_culture_sensitivity o join lpch.culture_sensitivity c on 'JC' || o.anon_id = c.anon_id and o.order_proc_id_coded = c.order_proc_id_coded and o.line = c.line where format_datetime('%Y-%m-%d %H:%M:%S', c.order_time_jittered) <> o.order_time_jittered or format_datetime('%Y-%m-%d %H:%M:%S', c.result_time_jittered) <> o.result_time_jittered or format_datetime('%Y-%m-%d %H:%M:%S', c.sens_obs_inst_tm_jittered) <> o.sens_obs_inst_tm_jittered or format_datetime('%Y-%m-%d %H:%M:%S', c.sens_anl_inst_tm_jittered) <> o.sens_anl_inst_tm_jittered;
  - fixing anon_id: update som-nero-phi-jonc101.lpch.culture_sensitivity set anon_id = 'JC' || anon_id where true;
- flowsheets
  - conversion script: select * except(recorded_time), parse_datetime('%Y-%m-%d %H:%M:%S', recorded_time) as recorded_time, timestamp(parse_datetime('%Y-%m-%d %H:%M:%S', recorded_time), "America/Los_Angeles") as recorded_time_utc from som-nero-phi-naras-ric.Jon_Chen_data.lpch_flowsheet ;
  - fixing anon_id: update som-nero-phi-jonc101.lpch.flowsheet set anon_id = 'JC' || anon_id where true;
  - unique key: anon_id, inpatient_data_id_coded, line, recorded_time
  - conversion check: select from ( select row_number() over() as o_row, o1.o_recorded_time, o_cnt from ( select parse_datetime('%Y-%m-%d %H:%M:%S', recorded_time) as o_recorded_time, count() as o_cnt from som-nero-phi-naras-ric.Jon_Chen_data.lpch_flowsheet group by recorded_time order by recorded_time ) o1 ) o2 join (select row_number() over() as c_row, c1.recorded_time, cnt from ( select recorded_time, count(*) as cnt from lpch.flowsheet group by recorded_time order by recorded_time ) c1 ) c2 on o2.o_row = c2.c_row where o2.o_recorded_time <> c2.recorded_time;
- lab_result
  - need to split the .gz in jc_bucket since the limit for direct uploads is 4gb
  - escape quotes in freetext columns
  - upload
  - conversion script: select * except(order_time, taken_time, result_time), parse_datetime('%Y-%m-%d %H:%M:%S', order_time) as order_time, parse_datetime('%Y-%m-%d %H:%M:%S', case when taken_time <> '' then taken_time else null end) as taken_time, parse_datetime('%Y-%m-%d %H:%M:%S', case when result_time <> '' then result_time else null end) as result_time, timestamp(order_time, "America/Los_Angeles") as order_time_utc, timestamp(case when taken_time <> '' then taken_time else null end, "America/Los_Angeles") as taken_time_utc, timestamp(case when result_time <> '' then result_time else null end, "America/Los_Angeles") as result_time_utc from som-nero-phi-naras-ric.Jon_Chen_data.lpch_lab_result ;
  - unique key: anon_id, pat_enc_csn_id_coded, order_id_coded, line
  - fixing anon_id: update som-nero-phi-jonc101.lpch.lab_result set anon_id = 'JC' || anon_id where true;
  - conversion check: select o.anon_id, o.pat_enc_csn_id_coded, o.order_id_coded, o.line, o.order_time as o1, o.taken_time as o2, o.result_time as o3, c.order_time, c.taken_time, c.result_time from som-nero-phi-naras-ric.Jon_Chen_data.lpch_lab_result o join shc_core.lab_result c on 'JC' || o.anon_id = c.anon_id and o.pat_enc_csn_id_coded = c.pat_enc_csn_id_coded and o.order_id_coded = c.order_id_coded and o.line = c.line where o.order_time <> format_datetime('%Y-%m-%d %H:%M:%S', c.order_time) or o.taken_time <> format_datetime('%Y-%m-%d %H:%M:%S', c.taken_time) or o.result_time <> format_datetime('%Y-%m-%d %H:%M:%S', c.result_time);
- pharmacy_lpch_rxcui_map_2019.csv - mapped_meds
  - Conversion script: select * except (load_date), parse_date("%d-%b-%y", load_date) as LOAD_DATE from lpch.mapped_meds;
  - No need to check conversion since all the dates are 25-Sep-2019
[X] latest LPCH tables anon_id needs to be converted to 'JC' format

[X] lpch_order_quest

conversion script:

select * except(ord_quest_id, ord_quest_date_jittered),
extract(date from parse_datetime('%Y-%m-%d %H:%M:%S', ord_quest_date_jittered)) as ord_quest_date_jittered
from `som-nero-phi-naras-ric.Jon_Chen_data.lpch_order_quest`;

Unique key: anon_id, order_proc_id_coded, line

conversion check:

select o.anon_id, o.order_proc_id_coded, o.line,
o.ord_quest_date_jittered as o1,
c.ord_quest_date_jittered
from `som-nero-phi-naras-ric.Jon_Chen_data.lpch_order_quest` o
join `lpch_core.order_quest` c
using (anon_id, order_proc_id_coded, line)
where o.ord_quest_date_jittered <> format_date('%Y-%m-%d', c.ord_quest_date_jittered) || ' 00:00:00';

[X] lpch_order_proc

times check:

select extract(time from case when ordering_date_jittered <> '' then parse_datetime('%Y-%m-%d %H:%M:%S', ordering_date_jittered) else null end) times, count(*) as cnt
from `som-nero-phi-naras-ric.Jon_Chen_data.lpch_order_proc`
group by times
order by cnt desc;

select extract(time from case when standing_exp_date_jittered <> '' then parse_datetime('%Y-%m-%d %H:%M:%S', standing_exp_date_jittered) else null end) times, count(*) as cnt
from `som-nero-phi-naras-ric.Jon_Chen_data.lpch_order_proc`
group by times
order by cnt desc;

select extract(time from case when proc_bgn_time_jittered <> '' then parse_datetime('%Y-%m-%d %H:%M:%S', proc_bgn_time_jittered) else null end) times, count(*) as cnt
from `som-nero-phi-naras-ric.Jon_Chen_data.lpch_order_proc`
group by times
order by cnt desc;

select extract(time from case when proc_end_time_jittered <> '' then parse_datetime('%Y-%m-%d %H:%M:%S', proc_end_time_jittered) else null end) times, count(*) as cnt
from `som-nero-phi-naras-ric.Jon_Chen_data.lpch_order_proc`
group by times
order by cnt desc;

select extract(time from case when order_inst_jittered <> '' then parse_datetime('%Y-%m-%d %H:%M:%S', order_inst_jittered) else null end) times, count(*) as cnt
from `som-nero-phi-naras-ric.Jon_Chen_data.lpch_order_proc`
group by times
order by cnt desc;

select extract(time from case when instantiated_time_jittered <> '' then parse_datetime('%Y-%m-%d %H:%M:%S', instantiated_time_jittered) else null end) times, count(*) as cnt
from `som-nero-phi-naras-ric.Jon_Chen_data.lpch_order_proc`
group by times
order by cnt desc;

select extract(time from case when order_time_jittered <> '' then parse_datetime('%Y-%m-%d %H:%M:%S', order_time_jittered) else null end) times, count(*) as cnt
from `som-nero-phi-naras-ric.Jon_Chen_data.lpch_order_proc`
group by times
order by cnt desc;

select extract(time from case when result_time_jittered <> '' then parse_datetime('%Y-%m-%d %H:%M:%S', result_time_jittered) else null end) times, count(*) as cnt
from `som-nero-phi-naras-ric.Jon_Chen_data.lpch_order_proc`
group by times
order by cnt desc;

select extract(time from case when proc_start_time_jittered <> '' then parse_datetime('%Y-%m-%d %H:%M:%S', proc_start_time_jittered) else null end) times, count(*) as cnt
from `som-nero-phi-naras-ric.Jon_Chen_data.lpch_order_proc`
group by times
order by cnt desc;

select extract(time from case when proc_date_jittered <> '' then parse_datetime('%Y-%m-%d %H:%M:%S', proc_date_jittered) else null end) times, count(*) as cnt
from `som-nero-phi-naras-ric.Jon_Chen_data.lpch_order_proc`
group by times
order by cnt desc;

select extract(time from case when last_stand_perf_dt_jittered <> '' then parse_datetime('%Y-%m-%d %H:%M:%S', last_stand_perf_dt_jittered) else null end) times, count(*) as cnt
from `som-nero-phi-naras-ric.Jon_Chen_data.lpch_order_proc`
group by times
order by cnt desc;

select extract(time from case when last_stand_perf_tm_jittered <> '' then parse_datetime('%Y-%m-%d %H:%M:%S', last_stand_perf_tm_jittered) else null end) times, count(*) as cnt
from `som-nero-phi-naras-ric.Jon_Chen_data.lpch_order_proc`
group by times
order by cnt desc;

conversion script:

select * except(ordering_date_jittered, standing_exp_date_jittered, proc_bgn_time_jittered, proc_end_time_jittered, order_inst_jittered, instantiated_time_jittered,
            order_time_jittered, result_time_jittered, proc_start_time_jittered, proc_date_jittered, last_stand_perf_dt_jittered, last_stand_perf_tm_jittered),
    extract(date from parse_datetime('%Y-%m-%d %H:%M:%S', case when ordering_date_jittered <> '' then ordering_date_jittered else null end)) as ordering_date_jittered,
    extract(date from parse_datetime('%Y-%m-%d %H:%M:%S', case when standing_exp_date_jittered <> '' then standing_exp_date_jittered else null end)) as standing_exp_date_jittered,

    parse_datetime('%Y-%m-%d %H:%M:%S', case when proc_bgn_time_jittered <> '' then proc_bgn_time_jittered else null end) as proc_bgn_time_jittered,
    parse_datetime('%Y-%m-%d %H:%M:%S', case when proc_end_time_jittered <> '' then proc_end_time_jittered else null end) as proc_end_time_jittered,
    parse_datetime('%Y-%m-%d %H:%M:%S', case when order_inst_jittered <> '' then order_inst_jittered else null end) as order_inst_jittered,
    parse_datetime('%Y-%m-%d %H:%M:%S', case when instantiated_time_jittered <> '' then instantiated_time_jittered else null end) as instantiated_time_jittered,
    parse_datetime('%Y-%m-%d %H:%M:%S', case when order_time_jittered <> '' then order_time_jittered else null end) as order_time_jittered,
    parse_datetime('%Y-%m-%d %H:%M:%S', case when result_time_jittered <> '' then result_time_jittered else null end) as result_time_jittered,
    parse_datetime('%Y-%m-%d %H:%M:%S', case when proc_start_time_jittered <> '' then proc_start_time_jittered else null end) as proc_start_time_jittered,

    extract(date from parse_datetime('%Y-%m-%d %H:%M:%S', case when proc_date_jittered <> '' then proc_date_jittered else null end)) as proc_date_jittered,
    extract(date from parse_datetime('%Y-%m-%d %H:%M:%S', case when last_stand_perf_dt_jittered <> '' then last_stand_perf_dt_jittered else null end)) as last_stand_perf_dt_jittered,

    parse_datetime('%Y-%m-%d %H:%M:%S', case when last_stand_perf_tm_jittered <> '' then last_stand_perf_tm_jittered else null end) as last_stand_perf_tm_jittered,

    timestamp(case when proc_bgn_time_jittered <> '' then proc_bgn_time_jittered else null end, "America/Los_Angeles") as proc_bgn_time_jittered_utc,
    timestamp(case when proc_end_time_jittered <> '' then proc_end_time_jittered else null end, "America/Los_Angeles") as proc_end_time_jittered_utc,
    timestamp(case when order_inst_jittered <> '' then order_inst_jittered else null end, "America/Los_Angeles") as order_inst_jittered_utc,
    timestamp(case when instantiated_time_jittered <> '' then instantiated_time_jittered else null end, "America/Los_Angeles") as instantiated_time_jittered_utc,
    timestamp(case when order_time_jittered <> '' then order_time_jittered else null end, "America/Los_Angeles") as order_time_jittered_utc,
    timestamp(case when result_time_jittered <> '' then result_time_jittered else null end, "America/Los_Angeles") as result_time_jittered_utc,
    timestamp(case when proc_start_time_jittered <> '' then proc_start_time_jittered else null end, "America/Los_Angeles") as proc_start_time_jittered_utc,
    timestamp(case when last_stand_perf_tm_jittered <> '' then last_stand_perf_tm_jittered else null end, "America/Los_Angeles") as last_stand_perf_tm_jittered_utc
from `som-nero-phi-naras-ric.Jon_Chen_data.lpch_order_proc` ;

No unique key

conversion check (shouldn't work in general case since there's no unique key):

select o.anon_id, o.pat_enc_csn_id_coded,
o.ordering_date_jittered as o1, o.standing_exp_date_jittered as o2, o.proc_bgn_time_jittered as o3, o.proc_end_time_jittered as o4, o.order_inst_jittered as o5, o.instantiated_time_jittered as o6,
    o.order_time_jittered as o7, o.result_time_jittered as o8, o.proc_start_time_jittered as o9, o.proc_date_jittered as o10, o.last_stand_perf_dt_jittered as o11, o.last_stand_perf_tm_jittered as o12,
c.ordering_date_jittered, c.standing_exp_date_jittered, c.proc_bgn_time_jittered, c.proc_end_time_jittered, c.order_inst_jittered, c.instantiated_time_jittered,
    c.order_time_jittered, c.result_time_jittered, c.proc_start_time_jittered, c.proc_date_jittered, c.last_stand_perf_dt_jittered, c.last_stand_perf_tm_jittered
from `som-nero-phi-naras-ric.Jon_Chen_data.lpch_order_proc` o
join lpch_core.order_proc c
using (anon_id, pat_enc_csn_id_coded, order_proc_id_coded, proc_id, ack_user_id)
where o.ordering_date_jittered <> format_date('%Y-%m-%d', c.ordering_date_jittered) || ' 00:00:00'
or o.standing_exp_date_jittered <> format_date('%Y-%m-%d', c.standing_exp_date_jittered) || ' 00:00:00'
or o.proc_bgn_time_jittered <> format_datetime('%Y-%m-%d %H:%M:%S', c.proc_bgn_time_jittered)
or o.proc_end_time_jittered <> format_datetime('%Y-%m-%d %H:%M:%S', c.proc_end_time_jittered)
or o.order_inst_jittered <> format_datetime('%Y-%m-%d %H:%M:%S', c.order_inst_jittered)
or o.instantiated_time_jittered <> format_datetime('%Y-%m-%d %H:%M:%S', c.instantiated_time_jittered)
or o.order_time_jittered <> format_datetime('%Y-%m-%d %H:%M:%S', c.order_time_jittered)
or o.result_time_jittered <> format_datetime('%Y-%m-%d %H:%M:%S', c.result_time_jittered)
or o.proc_start_time_jittered <> format_datetime('%Y-%m-%d %H:%M:%S', c.proc_start_time_jittered)
or o.proc_date_jittered <> format_date('%Y-%m-%d', c.proc_date_jittered) || ' 00:00:00'
or o.last_stand_perf_dt_jittered <> format_date('%Y-%m-%d', c.last_stand_perf_dt_jittered) || ' 00:00:00'
or o.last_stand_perf_tm_jittered <> format_datetime('%Y-%m-%d %H:%M:%S', c.last_stand_perf_tm_jittered);

HealthRex / CDSS

LPCH remaining tables upload/process UTC times #345

How the upload of LPCH/SHC was made: