Vedettes, normalisation unicode

glorieux-f commented 2 years ago

Unicode propose une norme de normalisation des chaînes de caractères https://unicode.org/reports/tr15/ Normalization Form C (NFC), Normalization Form KC (NFKC)

Peu de vedettes du xDGE correpondent actuellement à l’une ou l’autre de ces normes. Pour s’en convaincre, un tableau https://github.com/dge-csic/xdge/blob/main/tools/xdge_nomediff.tsv (à ouvrir dans LibreOffice Calc, M$.Excel n’aime pas l’unicode)

Après expérience, pour les vedettes DGE, il n’y a aucune différence entre FORM_C et FORM_KC

n°	file	@xml:id	@type		hex `<orth>` FORM_C
9	xdge1	ἀάατος	adj	ἀάατος	1f00 1f71 03b1 03c4 03bf 03c2 1f00 03ac 03b1 03c4 03bf 03c2
10	xdge1	Ἀάβ	xr	Ἀάβ	1f08 1f71 03b2 1f08 03ac 03b2
11	xdge1	ἀάβακτος	adj	ἀάβακτος	1f00 1f71 03b2 03b1 03ba 03c4 03bf 03c2 1f00 03ac 03b2 03b1 03ba 03c4 03bf 03c2

xDGE a fait des choix sur certains caractères unicode qui ne semblent plus ceux de la spec.

Qui a raison ? xDGE ou FORM_C ?

glorieux-f commented 2 years ago

Les caractères encodés différemment entre xDGE et FORM_C

count	`<orth>`	hex	FORM_C	hex
13404	ί	u1f77	ί	u03af
11300	ό	u1f79	ό	u03cc
10246	ά	u1f71	ά	u03ac
8413	έ	u1f73	έ	u03ad
5565	ύ	u1f7b	ύ	u03cd
5144	ή	u1f75	ή	u03ae
2879	·	u0387	·	u00b7
2021	ώ	u1f7d	ώ	u03ce
341	ΐ	u1fd3	ΐ	u0390
20	ΰ	u1fe3	ΰ	u03b0

glorieux-f commented 2 years ago

S’il faut convertir, le faire par code est sans doute la solution la plus sûre.

thuillier-s commented 2 years ago

https://wiki.digitalclassicist.org/Greek_Unicode_duplicated_vowels La conversion semble le plus pertinent.

glorieux-f commented 2 years ago

OK, je fais ça. Très bien d’avoir trouvé l’autorité sur le sujet.

glorieux-f commented 2 years ago

C’est fait. Si rien ne te semble cassé, on peut continuer sur cette branche.

glorieux-f commented 2 years ago

Sur la totalité, les caractères modifiés.

count	orig	hex	FORM_C	hex
91596	ί	u1f77	ί	u03af
71607	ό	u1f79	ό	u03cc
71103	έ	u1f73	έ	u03ad
66199	ά	u1f71	ά	u03ac
38339	ύ	u1f7b	ύ	u03cd
34254	ή	u1f75	ή	u03ae
15411	ώ	u1f7d	ώ	u03ce
5505	·	u0387	·	u00b7
1529	;	u037e	;	u003b
1294	ΐ	u1fd3	ΐ	u0390
240	ʹ	u0374	ʹ	u02b9
80	ΰ	u1fe3	ΰ	u03b0

glorieux-f commented 2 years ago

Dans xdg4.xml et xdge8.xml, il y a des cas de normalisations qui modifient le nombre de caractères. Je n’arrive à attraper que le premier (après tout est désaligné), ce sont des lettres latines avec des accents décomposés.

thuillier-s commented 2 years ago

Merci. Pas plus de caractères que ceux que j'avais détectés, tant mieux.

count	orig	hex	FORM_C	hex	normalisation?
91596	ί	u1f77	ί	u03af	ok
71607	ό	u1f79	ό	u03cc	ok
71103	έ	u1f73	έ	u03ad	ok
66199	ά	u1f71	ά	u03ac	ok
38339	ύ	u1f7b	ύ	u03cd	ok
34254	ή	u1f75	ή	u03ae	ok
15411	ώ	u1f7d	ώ	u03ce	ok
5505	·	u0387	·	u00b7	problématique : . Logeion n'a pas converti
1529	;	u037e	;	u003b	perte pas grave, affichage identique. Logeion n'a pas converti
1294	ΐ	u1fd3	ΐ	u0390	ok
240	ʹ	u0374	ʹ	u02b9	affichage légèrement différent: Pas bien grave et pas de perte (u02b9 n'est pas utilisé dans le DGE, donc pas d’ambiguïté créée)
80	ΰ	u1fe3	ΰ	u03b0	ok

glorieux-f commented 2 years ago

En scannant les points médians, il semble que la plupart sont après une lettre grecque, il n’y aurait donc pas de risque à à transformer les 00b7 en 0387. Vendu ?

thuillier-s commented 2 years ago

Rechercher ces ; points d'interrogation est utile. J'ai trouvé des segments oubliés qui devraient être des quote: xdge5:

</bibl>, -πῶς δ., ὦ Σώκρατες; <bibl xml:id="520945">

</bibl>, -ποῖ δ.; <bibl xml:id="520946">

D'autres sont dans des usg. Là, on peut dire qu'ils suffisamment encadrés. Mais mon compte n'est pas encore bon. Je continue à chercher les récalcitrants

glorieux-f commented 2 years ago

Il faut les mater.

thuillier-s commented 2 years ago

Tout trouvé. Il n'y en avait que 13 et pas du tout 200 !

2 dans cit/text() (les deux mentionnés plus haut) : À CORRIGER
11 dans <usg> et ce sont les seuls qui créeraient une confusion avec les 3 ou 4 points virgules "réels" qui existent dans usg. Confusion évitable en isolant le segment de texte grec dans un foreign@grc. Je ne vois pas de point virgule "réel" dans les <quote> donc pas de confusion possible ici. Tu peux donc maintenir le caractère u003b partout et la seule marche arrière à faire sera donc pour le point en haut.

glorieux-f commented 2 years ago

Les points sont remplacés, tu as la main pour les attributs type. Je te laisse fermer ?

thuillier-s commented 2 years ago

Maintenant, je peux les remplacer tous directement, non ? Pas seulement le monstre, je veux dire.

glorieux-f commented 2 years ago

Oui, c’est ce que je voulais dire. Pardon, il était tard.

glorieux-f commented 2 years ago

Rien à voir avec le fil, mais c’est à propos de notre conversation au téléphone. Je crois avoir mon idée sur ce qu’est une bonne définition. C’est un portrait. Il faut connaître les mots comme des personnes, avec leur caractère, leurs défauts. Pour les enfants, il faut par exemple de demander si mot est gentil ou méchant, s’il préfère les chats ou les chiens, et surtout : quel est son dessert préféré.

dge-csic / xdge_xml

Vedettes, normalisation unicode #28