[x] Improve Símarómur => I m_0 p r O v E s i: m a r ou m Y r §sp
[x] start and end every utterance with a pause (§sp / pau)
[x] Do custom g2p handling of some problematic letters when read as a single utterance (important for keyboard reading)
Other
[x] Should correctly produce English/Icelandic phonemes for all Símarómur strings that could be read by VoiceOver if set to English locale
New
[x] 1.800.000 kr via network voice => 1 komma 8 0 0 0 0 0 krónur
[x] original ("Anníe Mist Þórisdóttir er svolítið stríðin og Björgvin Karl Guðmundsson fékk að kynnast því á dögunum.INSTAGRAM/@ANNIETHORISDOTTIR")
normalized ("anníe mist þórisdóttir er svolítið stríðin og björgvin karl guðmundsson fékk að kynnast því á dögunum.instagram@anniethorisdottir .")
phonemes ("a n i E m I s t T ou: r I s t ou h t I r E r s v O: l i t I D s t r i: D I n O: G p j 9 r k v I n k_h a r t l_0 k v Y D m Y n t s O n f j E h k a: D c_h I n a s t T v i: au: Rewrite failed")
[ ] original ("Bühl er liðsfélagi Glódísar Perlu Viggósdóttur, Karólínu Leu Vilhjálmsdóttur og Cecilíu Rán Rúnarsdóttur hjá Bayern München.")
normalized ("buhl er liðsfélagi glódísar perlu viggósdóttur , karólínu leu vilhjálmsdóttur og kekilíu rán rúnarsdóttur hjá bayern munkhen .")
phonemes ("p Y l_0 E r l I D s f j E l ai j I k l ou: t i s a r p_h E r t l Y v I k ou s t ou h t Y r §sp k_h a: r ou l i n Y l E: Y v I lC au l m s t ou h t Y r O: G c_h E: c I l i j Y r au: n r u: n a r_0 s t ou h t Y r C au: p ai j E r n m u n_0 k h E n ") - missing space between "l C"
[x] original ("4. ágúst 2022 06:42")
normalized ("fjórir. ágúst tvö þúsund tuttugu og tvö núll sex fjörutíu og tvö .")
[x] original ("Link in bio 💅🏼")
normalized ("link in bio �� .")
phonemes ("l i N_0 k I n p I: O Rewrite failed ")
[x] original ("Aðeins er eftir um einn metri áður en hraunið fer að renna út úr dölunum.ELDFJALLAFRÆÐI OG NÁTTÚRUVÁRHÓPUR HÍ")
normalized ("aðeins er eftir um einn metri áður en hraunið fer að renna út úr d ö l u n u m punktur eldfjallafræði og n á t t ú r u v á r h ó p u r h í .")
phonemes ("a: D ei n s E r E f t I r Y m ei t n_0 m E: t r I au: D Y r E n r_0 9i: n I D f E: r a: D r E n a u: t u: r t j E: 9: ai: Y: E n Y: E m p_h u n_0 t Y r E l t f j a t l a v r ai D I O: G E n au: t_h j E: t_h j E: u: E r Y: v a f au: E r h au: ou: p_h j E: Y: E r h au: i: ")
[x] original ("www.visir")
normalized ("w w w . v i s i r ")
phonemes ("t_h v 9: f a l_0 t v a f t_h v 9: f a l_0 t v a f t_h v 9: f a l_0 t v a f §sp v a f I: E s I: E r")
The third item on the "New" list is a bug in the Thrax grammar, opened an issue in the thrax-g2p repo.
Otherwise all items tackled and added to the normalizer unit tests. Closing this issue.
g2p
höfundaréttur
Other
New