Open glorieux-f opened 2 years ago
Les caractères encodés différemment entre xDGE et FORM_C
count | <orth> |
hex | FORM_C | hex |
---|---|---|---|---|
13404 | ί | u1f77 | ί | u03af |
11300 | ό | u1f79 | ό | u03cc |
10246 | ά | u1f71 | ά | u03ac |
8413 | έ | u1f73 | έ | u03ad |
5565 | ύ | u1f7b | ύ | u03cd |
5144 | ή | u1f75 | ή | u03ae |
2879 | · | u0387 | · | u00b7 |
2021 | ώ | u1f7d | ώ | u03ce |
341 | ΐ | u1fd3 | ΐ | u0390 |
20 | ΰ | u1fe3 | ΰ | u03b0 |
S’il faut convertir, le faire par code est sans doute la solution la plus sûre.
https://wiki.digitalclassicist.org/Greek_Unicode_duplicated_vowels La conversion semble le plus pertinent.
OK, je fais ça. Très bien d’avoir trouvé l’autorité sur le sujet.
C’est fait. Si rien ne te semble cassé, on peut continuer sur cette branche.
Sur la totalité, les caractères modifiés.
count | orig | hex | FORM_C | hex |
---|---|---|---|---|
91596 | ί | u1f77 | ί | u03af |
71607 | ό | u1f79 | ό | u03cc |
71103 | έ | u1f73 | έ | u03ad |
66199 | ά | u1f71 | ά | u03ac |
38339 | ύ | u1f7b | ύ | u03cd |
34254 | ή | u1f75 | ή | u03ae |
15411 | ώ | u1f7d | ώ | u03ce |
5505 | · | u0387 | · | u00b7 |
1529 | ; | u037e | ; | u003b |
1294 | ΐ | u1fd3 | ΐ | u0390 |
240 | ʹ | u0374 | ʹ | u02b9 |
80 | ΰ | u1fe3 | ΰ | u03b0 |
Dans xdg4.xml et xdge8.xml, il y a des cas de normalisations qui modifient le nombre de caractères. Je n’arrive à attraper que le premier (après tout est désaligné), ce sont des lettres latines avec des accents décomposés.
Merci. Pas plus de caractères que ceux que j'avais détectés, tant mieux.
count | orig | hex | FORM_C | hex | normalisation? |
---|---|---|---|---|---|
91596 | ί | u1f77 | ί | u03af | ok |
71607 | ό | u1f79 | ό | u03cc | ok |
71103 | έ | u1f73 | έ | u03ad | ok |
66199 | ά | u1f71 | ά | u03ac | ok |
38339 | ύ | u1f7b | ύ | u03cd | ok |
34254 | ή | u1f75 | ή | u03ae | ok |
15411 | ώ | u1f7d | ώ | u03ce | ok |
5505 | · | u0387 | · | u00b7 | problématique : . Logeion n'a pas converti |
1529 | ; | u037e | ; | u003b | perte pas grave, affichage identique. Logeion n'a pas converti |
1294 | ΐ | u1fd3 | ΐ | u0390 | ok |
240 | ʹ | u0374 | ʹ | u02b9 | affichage légèrement différent: Pas bien grave et pas de perte (u02b9 n'est pas utilisé dans le DGE, donc pas d’ambiguïté créée) |
80 | ΰ | u1fe3 | ΰ | u03b0 | ok |
En scannant les points médians, il semble que la plupart sont après une lettre grecque, il n’y aurait donc pas de risque à à transformer les 00b7 en 0387. Vendu ?
Rechercher ces ; points d'interrogation est utile. J'ai trouvé des segments oubliés qui devraient être des quote
:
xdge5:
</bibl>, -πῶς δ., ὦ Σώκρατες; <bibl xml:id="520945">
</bibl>, -ποῖ δ.; <bibl xml:id="520946">
D'autres sont dans des usg
. Là, on peut dire qu'ils suffisamment encadrés.
Mais mon compte n'est pas encore bon. Je continue à chercher les récalcitrants
Il faut les mater.
Tout trouvé. Il n'y en avait que 13 et pas du tout 200 !
<usg>
et ce sont les seuls qui créeraient une confusion avec les 3 ou 4 points virgules "réels" qui existent dans usg
. Confusion évitable en isolant le segment de texte grec dans un foreign@grc.
Je ne vois pas de point virgule "réel" dans les <quote>
donc pas de confusion possible ici.
Tu peux donc maintenir le caractère u003b partout et la seule marche arrière à faire sera donc pour le point en haut.Les points sont remplacés, tu as la main pour les attributs type. Je te laisse fermer ?
Maintenant, je peux les remplacer tous directement, non ? Pas seulement le monstre, je veux dire.
Oui, c’est ce que je voulais dire. Pardon, il était tard.
Rien à voir avec le fil, mais c’est à propos de notre conversation au téléphone. Je crois avoir mon idée sur ce qu’est une bonne définition. C’est un portrait. Il faut connaître les mots comme des personnes, avec leur caractère, leurs défauts. Pour les enfants, il faut par exemple de demander si mot est gentil ou méchant, s’il préfère les chats ou les chiens, et surtout : quel est son dessert préféré.
Unicode propose une norme de normalisation des chaînes de caractères https://unicode.org/reports/tr15/ Normalization Form C (NFC), Normalization Form KC (NFKC)
Peu de vedettes du xDGE correpondent actuellement à l’une ou l’autre de ces normes. Pour s’en convaincre, un tableau https://github.com/dge-csic/xdge/blob/main/tools/xdge_nomediff.tsv (à ouvrir dans LibreOffice Calc, M$.Excel n’aime pas l’unicode)
Après expérience, pour les vedettes DGE, il n’y a aucune différence entre FORM_C et FORM_KC
<orth>
FORM_C
1f00 03ac 03b1 03c4 03bf 03c2
1f08 03ac 03b2
1f00 03ac 03b2 03b1 03ba 03c4 03bf 03c2
xDGE a fait des choix sur certains caractères unicode qui ne semblent plus ceux de la spec.
Qui a raison ? xDGE ou FORM_C ?