dge-csic / xdge_xml

0 stars 0 forks source link

Vedettes, normalisation unicode #28

Open glorieux-f opened 2 years ago

glorieux-f commented 2 years ago

Unicode propose une norme de normalisation des chaînes de caractères https://unicode.org/reports/tr15/ Normalization Form C (NFC), Normalization Form KC (NFKC)

Peu de vedettes du xDGE correpondent actuellement à l’une ou l’autre de ces normes. Pour s’en convaincre, un tableau https://github.com/dge-csic/xdge/blob/main/tools/xdge_nomediff.tsv (à ouvrir dans LibreOffice Calc, M$.Excel n’aime pas l’unicode)

Après expérience, pour les vedettes DGE, il n’y a aucune différence entre FORM_C et FORM_KC

file @xml:id @type hex <orth>
FORM_C
9 xdge1 ἀάατος adj ἀάατος 1f00 1f71 03b1 03c4 03bf 03c2
1f00 03ac 03b1 03c4 03bf 03c2
10 xdge1 Ἀάβ xr Ἀάβ 1f08 1f71 03b2
1f08 03ac 03b2
11 xdge1 ἀάβακτος adj ἀάβακτος 1f00 1f71 03b2 03b1 03ba 03c4 03bf 03c2
1f00 03ac 03b2 03b1 03ba 03c4 03bf 03c2

xDGE a fait des choix sur certains caractères unicode qui ne semblent plus ceux de la spec.

Qui a raison ? xDGE ou FORM_C ?

glorieux-f commented 2 years ago

Les caractères encodés différemment entre xDGE et FORM_C

count <orth> hex FORM_C hex
13404 u1f77 ί u03af
11300 u1f79 ό u03cc
10246 u1f71 ά u03ac
8413 u1f73 έ u03ad
5565 u1f7b ύ u03cd
5144 u1f75 ή u03ae
2879 · u0387 · u00b7
2021 u1f7d ώ u03ce
341 u1fd3 ΐ u0390
20 u1fe3 ΰ u03b0
glorieux-f commented 2 years ago

S’il faut convertir, le faire par code est sans doute la solution la plus sûre.

thuillier-s commented 2 years ago

https://wiki.digitalclassicist.org/Greek_Unicode_duplicated_vowels La conversion semble le plus pertinent.

glorieux-f commented 2 years ago

OK, je fais ça. Très bien d’avoir trouvé l’autorité sur le sujet.

glorieux-f commented 2 years ago

C’est fait. Si rien ne te semble cassé, on peut continuer sur cette branche.

glorieux-f commented 2 years ago

Sur la totalité, les caractères modifiés.

count orig hex FORM_C hex
91596 u1f77 ί u03af
71607 u1f79 ό u03cc
71103 u1f73 έ u03ad
66199 u1f71 ά u03ac
38339 u1f7b ύ u03cd
34254 u1f75 ή u03ae
15411 u1f7d ώ u03ce
5505 · u0387 · u00b7
1529 ; u037e ; u003b
1294 u1fd3 ΐ u0390
240 ʹ u0374 ʹ u02b9
80 u1fe3 ΰ u03b0
glorieux-f commented 2 years ago

Dans xdg4.xml et xdge8.xml, il y a des cas de normalisations qui modifient le nombre de caractères. Je n’arrive à attraper que le premier (après tout est désaligné), ce sont des lettres latines avec des accents décomposés.

image

thuillier-s commented 2 years ago

Merci. Pas plus de caractères que ceux que j'avais détectés, tant mieux.

count orig hex FORM_C hex normalisation?
91596 u1f77 ί u03af ok
71607 u1f79 ό u03cc ok
71103 u1f73 έ u03ad ok
66199 u1f71 ά u03ac ok
38339 u1f7b ύ u03cd ok
34254 u1f75 ή u03ae ok
15411 u1f7d ώ u03ce ok
5505 · u0387 · u00b7 problématique : image. Logeion n'a pas converti
1529 ; u037e ; u003b perte pas grave, affichage identique. Logeion n'a pas converti
1294 u1fd3 ΐ u0390 ok
240 ʹ u0374 ʹ u02b9 affichage légèrement différent: image Pas bien grave et pas de perte (u02b9 n'est pas utilisé dans le DGE, donc pas d’ambiguïté créée)
80 u1fe3 ΰ u03b0 ok
glorieux-f commented 2 years ago

En scannant les points médians, il semble que la plupart sont après une lettre grecque, il n’y aurait donc pas de risque à à transformer les 00b7 en 0387. Vendu ?

thuillier-s commented 2 years ago

Rechercher ces ; points d'interrogation est utile. J'ai trouvé des segments oubliés qui devraient être des quote: xdge5:

</bibl>, -πῶς δ., ὦ Σώκρατες; <bibl xml:id="520945">

</bibl>, -ποῖ δ.; <bibl xml:id="520946">

D'autres sont dans des usg. Là, on peut dire qu'ils suffisamment encadrés. Mais mon compte n'est pas encore bon. Je continue à chercher les récalcitrants

glorieux-f commented 2 years ago

Il faut les mater.

thuillier-s commented 2 years ago

image

thuillier-s commented 2 years ago

Tout trouvé. Il n'y en avait que 13 et pas du tout 200 !

glorieux-f commented 2 years ago

Les points sont remplacés, tu as la main pour les attributs type. Je te laisse fermer ?

thuillier-s commented 2 years ago

Maintenant, je peux les remplacer tous directement, non ? Pas seulement le monstre, je veux dire.

glorieux-f commented 2 years ago

Oui, c’est ce que je voulais dire. Pardon, il était tard.

glorieux-f commented 2 years ago

Rien à voir avec le fil, mais c’est à propos de notre conversation au téléphone. Je crois avoir mon idée sur ce qu’est une bonne définition. C’est un portrait. Il faut connaître les mots comme des personnes, avec leur caractère, leurs défauts. Pour les enfants, il faut par exemple de demander si mot est gentil ou méchant, s’il préfère les chats ou les chiens, et surtout : quel est son dessert préféré.