dijs / infobox-parser

Parse Wikipedia Infoboxes
40 stars 18 forks source link

Bug: Umlaut data is missing #37

Open vandres opened 1 year ago

vandres commented 1 year ago

We are trying to parse an Infobox from a German muncipality (https://de.wikipedia.org/wiki/Muhr_am_See). The API response looks like this:

{{Infobox Gemeinde in Deutschland
|Name              = Muhr a.See
|Wappen            = Wappen Muhr am See.svg
|Breitengrad       = 49/9/19/N
|Längengrad        = 10/42/39/E
|Lageplan          = Muhr am See in WUG.svg
|Bundesland        = Bayern
|Regierungsbezirk  = Mittelfranken
|Landkreis         = Weißenburg-Gunzenhausen
|Höhe              = 417 <!-- Quelle: Geodatenzentrum -->
|PLZ               = 91735
|Vorwahl           = 09831
|Gemeindeschlüssel = 09577114
|Gliederung        = 3 [[Gemeindeteil]]e
|Adresse           = Rosenau 1<br />91735 Muhr a.See
|Website           = [https://www.muhr-am-see.de/ www.muhr-am-see.de]
|Bürgermeister     = Dieter Rampe
|Bürgermeistertitel= [[Bürgermeister#Bayern|Erster Bürgermeister]]
|Partei            = [[Wählergruppe|Gemeinschaftsliste]]
}}

The parsed result looks the following:

{
  general: {
    name: 'Muhr a.See',
    wappen: 'Wappen Muhr am See.svg',
    breitengrad: '49/9/19/N',
    lageplan: 'Muhr am See in WUG.svg',
    bundesland: 'Bayern',
    regierungsbezirk: 'Mittelfranken',
    landkreis: 'Weißenburg-Gunzenhausen',
    plz: '91735',
    vorwahl: '09831',
    gliederung: '3 Gemeindeteile',
    adresse: 'Rosenau 1,91735 Muhr a.See',
    website: '[https://www.muhr-am-see.de/ www.muhr-am-see.de]',
    partei: 'Wählergruppe'
  },
  tables: [],
  bsTables: null,
  lists: []
}

All the data identified by an Umlaut are missing in the result. E.g. "Höhe", "Bürgermeister"