libis / crkc_tools

0 stars 0 forks source link

Aanpassen trema's #5

Closed aruijmen closed 10 years ago

aruijmen commented 10 years ago

De trema's in teksten uit de oude databank zijn niet goed overgezet, maar vervangen zijn door vreemde tekens, bv. ë voor ë : "piëdestal" is "piëdestal" geworden. Zoekactie op ë levert al 117 objecten op, maar er zijn wellicht nog andere letters met trema die verkeerd zijn overgezet

aruijmen commented 10 years ago

http://services.libis.be/youtrack/issue/CRKC-120

aruijmen commented 10 years ago

Een lijstje met mogelijke karakters: (aantallen (en verbeteringen) verwijzen naar ca_object_labels maar er zijn ook gevallen in ca_attribute_values)

é => é => 11 records ë => ë => 102 records ï => ï => 0 records ç => ç => 3 records => aangepast è => è => 1 record => aangepast ê => ê => 0 records â => â => 2 records => aangepast à => à => zoekactie lukt niet (onzichtbaar karakter) -> hoe opsporen????? ö => ö => 0 records ü => ü => 2 records => aangepast ä => ä => 0 records

Ik bekijk dit nog verder

samalloing commented 10 years ago

Werkt convert of cast niet? http://dev.mysql.com/doc/refman/5.0/en/charset-convert.html

aruijmen commented 10 years ago

Met convert : zie artikel: http://jonisalonen.com/2012/fixing-doubly-utf-8-encoded-text-in-mysql/