ErwinKomen / RU-asrbank

ASR transcription metadata repository
0 stars 0 forks source link

Language specification #22

Open ErwinKomen opened 7 years ago

ErwinKomen commented 7 years ago

Twan remarks:

Is er een reden dat je een kopie van de componenten Language en iso-639-3 hebt gemaakt? Waarschijnlijk voldoet het bestaande publieke component cmdi-language https://catalog.clarin.eu/ds/ComponentRegistry#/?itemId=clarin.eu%3Acr1%3Ac_1271859438111&registrySpace=public.

Erwin: Check this again. We also want the language "Dutch (Northern)" and we want the user to be able to specify "unknown" or something like that. Is that possible with the existing cmdi-language component?

ErwinKomen commented 7 years ago

Explained the issue to Twan.

ErwinKomen commented 7 years ago

Reply from Twan:

Ik zou een variant op het 'language' component maken met het ISO639-5-component (language families/groups) erin, en zowel deze als het ISO639-3-component optioneel maken (cardinality 0-1). De eerste bevat namelijk 'sgn' for Sign Languages. Als de specifieke gebarentaal niet bekend is kun je dan deze waarde nemen en de language code weglaten. Voor andere waarden kun je kijken of je wel of niet een ISO639-5-code opneemt.

Het ISO639-3 component, hoewel niet helemaal up-to-date, bevat in elk geval wel 'vls' voor Vlaams. Als je nog specifieker wilt kunnen zijn, zou je een extra veld kunnen toevoegen voor een alternatieve codering, bijvoorbeeld Glottolog (zie bv http://glottolog.org/resource/languoid/id/vlaa1240) of IETF language tags. Dit geeft je ook flexibiliteit voor andere gevallen die niet in (onze versie van) het ISO-vocabulaire voorkomen. Ik zou het in elk geval wel expliciet maken en niet ISO-639-3 naar behoeven uitbreiden.