jameshadfield commented 4 years ago

The original design of nextstrain narratives was that each "section" (paragraph) should define its own dataset, such that a single narrative could display different datasets (or the same one if each section specified the same dataset). This was never implemented -- i.e. in auspice currently only the dataset specified in the YAML frontmatter is ever used -- which has resulted in the inadvertent creation of narratives which specify different (and perhaps invalid) datasets.

In auspice PR https://github.com/nextstrain/auspice/pull/1164 @eharkins and @salvatore-fxpig have managed to get this working 🎉 Before this is released we will endeavor to "correct" as many narratives as possible, of which there are many in this repo.

[ ] ncov_sit-rep_2020-01-23.md had 2 different datasets
[ ] ncov_sit-rep_2020-01-25.md had 2 different datasets
[ ] ncov_sit-rep_2020-01-30.md had 2 different datasets
[ ] ncov_sit-rep_2020-03-13.md had 2 different datasets
[ ] ncov_sit-rep_2020-03-27.md had 2 different datasets
[ ] ncov_sit-rep_2020-04-03.md had 3 different datasets
[ ] ncov_sit-rep_2020-04-10.md had 5 different datasets
[ ] ncov_sit-rep_2020-04-17.md had 3 different datasets
[ ] ncov_sit-rep_ar_2020-03-13.md had 2 different datasets
[ ] ncov_sit-rep_ar_2020-03-27.md had 2 different datasets
[ ] ncov_sit-rep_ar_2020-04-03.md had 3 different datasets
[ ] ncov_sit-rep_ar_2020-04-10.md had 5 different datasets
[ ] ncov_sit-rep_ar_2020-04-17.md had 3 different datasets
[ ] ncov_sit-rep_cs_2020-04-10.md had 5 different datasets
[ ] ncov_sit-rep_cs_2020-04-17.md had 3 different datasets
[ ] ncov_sit-rep_de_2020-01-25.md had 2 different datasets
[ ] ncov_sit-rep_de_2020-01-30.md had 2 different datasets
[ ] ncov_sit-rep_de_2020-03-05.md had 2 different datasets
[ ] ncov_sit-rep_de_2020-03-13.md had 3 different datasets
[ ] ncov_sit-rep_de_2020-03-27.md had 2 different datasets
[ ] ncov_sit-rep_de_2020-04-03.md had 3 different datasets
[ ] ncov_sit-rep_de_2020-04-10.md had 5 different datasets
[ ] ncov_sit-rep_de_2020-04-17.md had 3 different datasets
[ ] ncov_sit-rep_el_2020-03-27.md had 3 different datasets
[ ] ncov_sit-rep_el_2020-04-03.md had 3 different datasets
[ ] ncov_sit-rep_el_2020-04-10.md had 5 different datasets
[ ] ncov_sit-rep_el_2020-04-17.md had 3 different datasets
[ ] ncov_sit-rep_es_2020-01-25.md had 2 different datasets
[ ] ncov_sit-rep_es_2020-01-30.md had 2 different datasets
[ ] ncov_sit-rep_es_2020-03-13.md had 2 different datasets
[ ] ncov_sit-rep_es_2020-03-27.md had 2 different datasets
[ ] ncov_sit-rep_es_2020-04-03.md had 3 different datasets
[ ] ncov_sit-rep_es_2020-04-10.md had 5 different datasets
[ ] ncov_sit-rep_es_2020-04-17.md had 3 different datasets
[ ] ncov_sit-rep_fa_2020-03-13.md had 2 different datasets
[ ] ncov_sit-rep_fa_2020-03-27.md had 2 different datasets
[ ] ncov_sit-rep_fa_2020-04-03.md had 3 different datasets
[ ] ncov_sit-rep_fa_2020-04-10.md had 5 different datasets
[ ] ncov_sit-rep_fa_2020-04-17.md had 3 different datasets
[ ] ncov_sit-rep_fr_2020-03-13.md had 2 different datasets
[ ] ncov_sit-rep_fr_2020-03-27.md had 2 different datasets
[ ] ncov_sit-rep_fr_2020-04-03.md had 2 different datasets
[ ] ncov_sit-rep_fr_2020-04-10.md had 5 different datasets
[ ] ncov_sit-rep_fr_2020-04-17.md had 3 different datasets
[ ] ncov_sit-rep_id_2020-04-03.md had 3 different datasets
[ ] ncov_sit-rep_id_2020-04-10.md had 5 different datasets
[ ] ncov_sit-rep_id_2020-04-17.md had 3 different datasets
[ ] ncov_sit-rep_it_2020-03-13.md had 2 different datasets
[ ] ncov_sit-rep_it_2020-03-27.md had 2 different datasets
[ ] ncov_sit-rep_it_2020-04-03.md had 3 different datasets
[ ] ncov_sit-rep_it_2020-04-10.md had 5 different datasets
[ ] ncov_sit-rep_it_2020-04-17.md had 3 different datasets
[ ] ncov_sit-rep_ja_2020-03-13.md had 2 different datasets
[ ] ncov_sit-rep_ja_2020-03-27.md had 2 different datasets
[ ] ncov_sit-rep_ja_2020-04-03.md had 3 different datasets
[ ] ncov_sit-rep_ja_2020-04-10.md had 5 different datasets
[ ] ncov_sit-rep_ja_2020-04-17.md had 3 different datasets
[ ] ncov_sit-rep_ko_2020-03-13.md had 2 different datasets
[ ] ncov_sit-rep_ko_2020-03-27.md had 2 different datasets
[ ] ncov_sit-rep_ko_2020-04-03.md had 3 different datasets
[ ] ncov_sit-rep_ko_2020-04-10.md had 5 different datasets
[ ] ncov_sit-rep_ko_2020-04-17.md had 3 different datasets
[ ] ncov_sit-rep_nl_2020-03-13.md had 2 different datasets
[ ] ncov_sit-rep_nl_2020-03-27.md had 2 different datasets
[ ] ncov_sit-rep_nl_2020-04-03.md had 3 different datasets
[ ] ncov_sit-rep_nl_2020-04-10.md had 5 different datasets
[ ] ncov_sit-rep_nl_2020-04-17.md had 3 different datasets
[ ] ncov_sit-rep_pl_2020-03-13.md had 2 different datasets
[ ] ncov_sit-rep_pl_2020-03-27.md had 2 different datasets
[ ] ncov_sit-rep_pl_2020-04-03.md had 3 different datasets
[ ] ncov_sit-rep_pl_2020-04-10.md had 5 different datasets
[ ] ncov_sit-rep_pl_2020-04-17.md had 3 different datasets
[ ] ncov_sit-rep_pt_2020-01-25.md had 2 different datasets
[ ] ncov_sit-rep_pt_2020-01-30.md had 2 different datasets
[ ] ncov_sit-rep_pt_2020-03-13.md had 2 different datasets
[ ] ncov_sit-rep_pt_2020-03-27.md had 2 different datasets
[ ] ncov_sit-rep_pt_2020-04-03.md had 3 different datasets
[ ] ncov_sit-rep_pt_2020-04-10.md had 5 different datasets
[ ] ncov_sit-rep_ru_2020-01-30.md had 2 different datasets
[ ] ncov_sit-rep_ru_2020-03-13.md had 2 different datasets
[ ] ncov_sit-rep_ru_2020-03-20.md had 2 different datasets
[ ] ncov_sit-rep_ru_2020-03-27.md had 2 different datasets
[ ] ncov_sit-rep_ru_2020-04-03.md had 3 different datasets
[ ] ncov_sit-rep_ru_2020-04-10.md had 5 different datasets
[ ] ncov_sit-rep_ru_2020-04-17.md had 3 different datasets
[ ] ncov_sit-rep_tr_2020-03-27.md had 2 different datasets
[ ] ncov_sit-rep_tr_2020-04-03.md had 3 different datasets
[ ] ncov_sit-rep_tr_2020-04-10.md had 5 different datasets
[ ] ncov_sit-rep_tr_2020-04-17.md had 3 different datasets
[ ] ncov_sit-rep_zh_2020-01-25.md had 2 different datasets
[ ] ncov_sit-rep_zh_2020-01-30.md had 2 different datasets
[ ] ncov_sit-rep_zh_2020-03-13.md had 2 different datasets
[ ] ncov_sit-rep_zh_2020-03-27.md had 2 different datasets
[ ] ncov_sit-rep_zh_2020-04-03.md had 3 different datasets
[ ] ncov_sit-rep_zh_2020-04-10.md had 5 different datasets
[ ] ncov_sit-rep_zh_2020-04-17.md had 3 different datasets
[x] test_multiple-datasets.md had 2 different datasets
[ ] trees-background.md had 2 different datasets
[ ] trees-background_ar.md had 2 different datasets
[ ] trees-background_de.md had 2 different datasets
[ ] trees-background_el.md had 2 different datasets
[ ] trees-background_es.md had 2 different datasets
[ ] trees-background_fa.md had 2 different datasets
[ ] trees-background_fr.md had 2 different datasets
[ ] trees-background_it.md had 2 different datasets
[ ] trees-background_ja.md had 2 different datasets
[ ] trees-background_ko.md had 2 different datasets
[ ] trees-background_nl.md had 2 different datasets
[ ] trees-background_pl.md had 2 different datasets
[ ] trees-background_pt.md had 2 different datasets
[ ] trees-background_ru.md had 2 different datasets
[ ] trees-background_tr.md had 2 different datasets
[ ] trees-background_zh.md had 2 different datasets

P.S. This list was generated from the following bash code, which requires auspice to be running in a separate terminal and pointed at the narratives housed in this repo.

for fn in *.md; do
  prefix=$( echo ${fn} | tr '_' '/' | sed -e 's/\.md//' )
  n=$( curl http://localhost:4000/charon/getNarrative?prefix=${prefix} 2>/dev/null | jq 'map(.dataset) | unique | length ' )
  if [ ! ${n} = "" ] && [ ! "$n" -eq "1" ]; then
    echo "- [ ] ${fn} had ${n} different datasets";
  fi
done

eharkins commented 4 years ago

Regarding narratives with multiple datasets (in auspice), this is our desired behavior as put by @jameshadfield :

If someone has inadvertently specified a different dataset for slide x then either:

That dataset is a typo, and it doesn’t actually exist. I suspect this is the most common. In this case, we should attempt to fetch it, and when it fails gracefully fallback to using the current dataset. We should also display a warning (either in the console or via the banner notifications)

The dataset is actually valid. In this case we do change to the “new” dataset.

case 1. here is mostly done as soon as we merge https://github.com/nextstrain/auspice/pull/1167 (unless we prefer a banner notification) but case 2 should be fixed for each existing narrative with multiple datasets, since many existing narratives specify multiple valid datasets, e.g.

- [ ] ncov_sit-rep_2020-04-10.md had different datasets: [
  "ncov/2020-03-05",
  "ncov/2020-03-27",
  "ncov/2020-04-10",
  "ncov/global/2020-04-09",
  "ncov/global/2020-04-10"
]
- [ ] ncov_sit-rep_2020-04-17.md had different datasets: [
  "ncov/north-america/2020-03-05",
  "ncov/north-america/2020-03-27",
  "ncov/north-america/2020-04-17"
]
- [ ] ncov_sit-rep_2020-04-24.md had different datasets: [
  "ncov/2020-03-27",
  "ncov/2020-04-24",
  "ncov/africa/2020-04-24"
]

Merging https://github.com/nextstrain/auspice/pull/1164 will change the behavior of those narratives, unless we make sure they all specify the same dataset on each slide.

jameshadfield commented 4 years ago

9 will close this

emmahodcroft commented 4 years ago

Thank you for that incredible work James!!

nextstrain / narratives

Fix narratives which inadvertently specify multiple datasets #8

9 will close this