TweedeKamerDerStaten-Generaal / OpenDataPortaal

GitHub van het officiële Open Data Portaal van de Tweede Kamer der Staten-Generaal.
https://opendata.tweedekamer.nl
48 stars 3 forks source link

Data: inconsistent taalgebruik omschrijving in PersoonLoopbanen #113

Closed monty241 closed 10 months ago

monty241 commented 11 months ago

Soms eindigt omschrijving met punt, soms niet. Soms kleine letter aan begin, soms niet. Koppelwoorden soms wel, soms niet. Linefeeds in de tekst.

Query:

select persoon_id
,      omschrijvingnl
from   PersoonLoopbanen@twk
where false
--
-- Inconsistent zin/zinsnede. Onduidelijk wat standaard is, hoofdletter begin? punt einde? Varieert breed.
--
or    ( omschrijvingnl like '%.' and omschrijvingnl not like '%V.' )
--
-- Begint met kleine letter.
--
or    upper(substr(omschrijvingnl, 1, 1)) != substr(omschrijvingnl, 1, 1)
--
-- Koppelwoord naar functie lijkt het.
--
or    ( upper(omschrijvingnl) like 'van %' or upper(omschrijvingnl) like 'vanaf %' or upper(omschrijvingnl) like 'aan %' or upper(omschrijvingnl) like 'voor %' or upper(omschrijvingnl) like 'waarin %')
--
-- Linefeeds in tekst.
--
or    omschrijvingnl like '%_' || chr(10) || '_%'

Zoals:

image

OpenDataPortaal commented 10 months ago

Dit is niet iets dat we actief zelf kunnen aanpassen. We zullen dit evenwel onder de aandacht brengen van de beheerders van het bronsysteem.

monty241 commented 10 months ago

Dank!