v-gb / ortografe

Other
4 stars 0 forks source link

Mes proposicions d'ajout seront ici #1

Open Claromale opened 6 months ago

Claromale commented 6 months ago

En même temps que le faire sur Jlailu (Reddit an anglais), je vais poser ici directemant mes proposicions pour que l'extancion soit ancore plus conplète et permète d'anglober dans sa version finale l'ansenble des réformes du français, et pas que d'ordre ortografique ! ^^

(je rajouterais des mots au fur à mesure que j'an trouve)

Claromale commented 6 months ago

Il faudrait aussi mètre en place une écriture inclusive du stile Sistème Al pour renplacer automatiquemant les points médians, que je trouve perso très moche

v-gb commented 6 months ago

Tes diverses propositions sont intéressantes.

Vu que je décris l'extension en tant que "orthographe rationnelle", peut-être qu'elle devrait s'en tenir à inclure des propositions qui rationalise l'orthographe, plutôt que d'inclure des changements qui changent les choses sur un autre axe. Actuellement, le support pour des dictionnaires externes est raisonnable, et si un besoin n'est pas bien couvert, on pourrait discuter de ce qui serait améliorable (par exemple, on pourrait peut-être supporter de charger plusieurs dictionnaires, et les combiner de façon best-effort).

Dans tes propositions, transformer les um en ome est le genre de changement qui est très en ligne avec ce qu'on a déjà. C'est complètement raisonnable d'ajouter ça. C'est fait, maintenant.

On pourrait également fournir une règle qui réaligne l'orthographe de quelques mots sur leurs prononciations, quand les deux sont très déconnectés (seconde, monsieur, femme). Des trucs du genre doigt -> doit ou doi me semble raisonnable en principe, mais il faudrait définir une règle spécifique, parce qu'on a beaucoup de lettres muettes, alors il y a pas mal de choix.

Franciser des anglicismes (genre spam -> pourriel) est une bonne idée, je n'y avais pas pensé. On est loin des questions d'orthographes par contre. Je pense qu'il vaudrait mieux commencer avec un dictionnaire externe chargé dans l'extension, et plus tard, rediscuter.

Il faudrait que je regarde plus les histoires de conjugaisons, mais même si ce n'est pas purement une question d'orthographe, ça reste une tentative de rationalisation (régularisation de verbes irréguliers), donc je pense qu'on pourrait inclure ça. Très différent du genre de choses auxquelles je songeais vaguement en tout cas (j'imaginais aligner toutes les conjugaisons sur la deuxième personne du singulier, peut-être sans le "s" final: j'ira, tu ira, il ira, nous ira, vous ira, ils ira. Les verbes irréguliers restent irréguliers, mais ils ont moins de formes irrégulières).

"de la" -> "da" ou "toujours" -> "sempre" ne sont pas des rationalisation de l'orthographe, donc je pense que ça serait mieux dans un dictionnaire perso, externe à l'extension.

Changer quatre-vingt en huitante n'est presque jamais un changement d'orthographe, non? On n'écrit presque jamais les nombres en toute lettres, c'est presqu'exclusivement un changement oral.

Claromale commented 6 months ago

Merci pour la réponse vgb.

Dernière chose, quand je souhaite conbiner des règles, cèles qui étaient séleccionées ne le sont plus et je dois tout refaire manuèlemant. C'est un bogue de ma part ?

Je vais monter mon dico perso du coup, ça sera plus sinple. Un dico pour les termes isolés à la grafie à reprandre (femme, seconde, doigt, vingt etc) et un dico pour la conjugaison, un dico pour les anglicismes (mais du coup comment faire pour détecter si tel page est an anglais c'est conplexe)

Sinon en soit, vu que tu as déjà inclus des changemants de prononciacions avec les aux => als, on peut ouvrir graduèlemant l'extancion coe tu l'as dis aus autres pans de la langue.

Tu aurais un guide pour créer un dico perso ? Sur le site j'ai pas trouvé

v-gb commented 6 months ago

Dernière chose, quand je souhaite conbiner des règles, cèles qui étaient séleccionées ne le sont plus et je dois tout refaire manuèlemant. C'est un bogue de ma part ?

Il n'y a pas de logique qui sauvegarde la sélection. Je pourrais rajouter ça.

Je vais monter mon dico perso du coup, ça sera plus sinple. Un dico pour les termes isolés à la grafie à reprandre (femme, seconde, doigt, vingt etc) et un dico pour la conjugaison, un dico pour les anglicismes (mais du coup comment faire pour détecter si tel page est an anglais c'est conplexe)

L'extension détecte déjà si la page est en anglais, et n'y touche pas. Le problème, ce sont les pages partiellement en français et partiellement en anglais. Là, ça ne peut être gérable qu'avec une amélioration de l'extension. Après, peut-être que c'est embêtant mais sans plus, ça dépend de la fréquence des mots changés.

Tu aurais un guide pour créer un dico perso ? Sur le site j'ai pas trouvé

Le format du dictionnaire est décrit dans un lien visible dans la page d'options de l'extension. Après, la façon de créer le contenu du dictionnaire dépend du critère utilisé pour le construire. Mon code analyse la prononciation des mots, mais ce n'est pas forcément adéquat pour ce que tu veux faire. Pour les anglicismes, je suppose que l'office québecois de la langue française pourrait fournir des données qui servent de point de départ. Pour la conjugaison, je pense qu'il est soit possible de partir du lexique de lexique.org, soit peut-être d'autre sources (je pense hunspell ou grammalecte, qui devraient contenir les radicaux des verbes et la famille de conjugaison). Pour les lettres muettes, tu pourrais créer des règles comme le commit um/ome plus haut, mais qui remplace "g" par "", "p" par "", etc, et puis soit utiliser le résultat tel quel, soit utiliser ça comme un premier jet, et puis continuer à la main. Les instructions du README devrait dire comme construire le code, et ensuire _build/default/dict-gen/bin/dict_gen.exe gen --g/ ou un truc similaire te montrerait le résultat.

Claromale commented 6 months ago

Réformer les terminaisons en -que (monarchique, acoustique, etc) du français pour les calquer sur le consensus linguistique roman en c : -que en Français -c en anglais -co en espagnol -co en italien -ca en galicien -co en portugais -c en catalan -c en roumain -c en occitan -co en arpitan Cela permet d'économiser deus lètres, de raprocher le français de toutes les langues romanes y compris cèles régionales françaises, et d'unifier ainsi les terminaisons qui existent déjà en -c en français (basilic, public, bloc, chic, donc, alambic, trafic, duc, diagnostic, etc...) Suprimer le c final des mots où [k] ne se prononce pas (caoutchouc => caoutchou)

"Le public n'aimait pas cet air monarchic du Présidant de la Républic."

v-gb commented 6 months ago

Oui, on peut avoir une règle pour ça. Dans les autres langues, qu et c ne sont pas interchangeables, vu que le u de qu est prononcé.

Tu veux essayer d'implémenter ça ? Je pense qu'il y a deux façon de faire : soit une réécriture "que" -> "c", soit cette réécriture mais qui ne s'applique qu'aux occurrences en fin de mot (il suffit probablement d'avoir un ~start:(String.length .. - 4) pour faire ça). Les choix diffèrent pour un mot comme publiquement. Il faudrait également s'assurer que cette réécriture ait lieu après la règle "ent" -> "es", pour que si on sélectionne les deux règles, on se retrouve avec "communiquent" -> "communics" et pas "communiques". Il y a un bout de code qui ordonne l'application des règles en bas de rewrite.ml. Pour les c silencieux, une réécriture "c" -> "" devrait faire l'affaire. Cela dit ça ne semble pas nécessaire, car les c finaux sont déjà généralement prononcés, comme bec/sec/pic, avec des exceptions comme blanc. Rajouter des c finaux prononcés ne contribuerait pas d'ambigüité je pense.

Claromale commented 6 months ago

Tu penses pouvoir créer cète règle ? Mème si il ya pas mal d'excepcions, il faudrait pouvoir trouver la liste conplète des mots à changer

Concernant les omonimes, il faudrait peut-ètre diférencier sans et sens en enlevant un s à sans ?

Claromale commented 6 months ago

"sélectionnent" n'est pas converti, c'est normal ? (mais sélectione, sélectiones, etc)

v-gb commented 6 months ago

Tu penses pouvoir créer cète règle ? Mème si il ya pas mal d'excepcions, il faudrait pouvoir trouver la liste conplète des mots à changer

Je peux implémenter ça, mais il faudrait que tu précises les contours. publiquement, il communique, il communiquera, ils changent ou pas ? Si non, alors est-ce que "croquemort" change ? Je constate que banque devient banc avec ce changement.

J'ai étendu la régles des qua/ca et quo/co pour aussi réécrire piqure en picure.

"sélectionnent" n'est pas converti, c'est normal ? (mais sélectione, sélectiones, etc)

Les conjugaisons ne sont pas systématiques, ça dépend des mots présents dans le lexique. C'est un peu surprenant. J'ai rajouté ça ici.

Claromale commented 6 months ago

Tu as raison. Si la règle est inplémantée par "que => c"

Je propose qu'on laisse "publiquemant" avec le qu. Pour comuniquer et les verbes en -quer, on est obligé aussi vu que "communicer" changerait la prononciacion.

Ou alors on fait l'inverse et on converti tous les terminaisons en -c par -que ? (Bloque etc)

v-gb commented 6 months ago

communiquer ne peut pas devenir communicer, mais il communic ou communicra marcherait, la question c'est est-ce que ces changements sont voulus ou pas.

Claromale commented 6 months ago

C'est vrai que ça devient compliqué vu que ça créé des exceptions à l'intérieur même des verbes, ce qu'il faut éviter. Peut-être innover et mettre un tréma sur le c pour éviter de prononcer ce [se] ? Attac̈er ? J'attac̈ Tu attac̈s Il attac̈ Nous attac̈ons Vous attac̈ez Ils attac̈ent

(D'ailleurs Christiannisme/chrétien/Christ (et déclinaisons) n'a pas le "ch" changé je viens de le remarquer, alors que choléra devient coléra)

v-gb commented 6 months ago

Avoir un quatrième signe pour /k/ est possible mais parait un peu excessif. La règle qu/q permet de dire:

Attaqer
J'attaqe
Tu attaqes
Il attaqe
Nous attaqons
Vous attaqez
Ils attaqent

Ce qui est à peu près la même chose, mais régulier vu que les e finaux restent. Ça donne magiqe plutôt que magic par contre.

Claromale commented 6 months ago

La chose qui me chiffone avec la règle qu/q est qu'elle se décorèle des autres règles quo/co (cotidien) et qua/ca (calité). Après c'est vrai que le c̈ serait assez étrange... Je ne sais pas Après il y a bien "i" qui reste "qui" car "ci" serait prononcé "si".

v-gb commented 6 months ago

Je ne sais pas ce que tu veux dire par décorrèle. L'idée de qu/q c'est d'enlever des lettres muettes. qua/ca et autres c'est (j'imagine) de simplifier l'écriture en rendant le choix entre q et c non arbitraire. Les buts sont orthogonaux, et les deux sont applicables en même temps si on veut.

qu et le c tréma ont effectivement le même rôle (remplacer un c devant eiy). Si on écrit q sans u, la longueur est la même, mais q est déjà connu et plus facile à taper. Donc quel est l'avantage de cette diacritique ? C'est pas tellement que c'est étrange, mais que ça fait doublon avec les lettres existantes. Un g tréma par contre ne ferait pas doublon.

v-gb commented 6 months ago

Cela dit, pour revenir en arrière, je pense que c'est cohérent de dire "on ne touche que qu'en fin de mot et pas dans les conjugaisons". Ça donne "je fabrique, une fabric", donc l'extension prendrait l'orthographe la plus courante quand il rencontre fabrique (pour "fabrique", le verbe est le plus fréquent, donc pas de changement). J'ai l'impression que c'est une règle sur les e finaux, pas sur les c/q. De la même façon que transformer les ph en f implique de réécrire des m en n comme dans nymphe, supprimer des e non prononcés implique de transformer des q en c.

Claromale commented 6 months ago

Tu as raison. Au final c'est mieux d'harmoniser en q et mettre de côté la règle qua-o/ca-o (qalité et qotient plutot que cotient et calité) pour garder la symétrie en q. Même si on s'éloigne du coup de la graphie en c des langues romanes, on gagne tout de même une lettre.

Claromale commented 6 months ago

Quantique devient Quantiqe sans que le qu soit changé, alors que le mot se prononce très majoritairement [kɑ̃tik]

v-gb commented 6 months ago

Je n'argumentais pas en faveur d'utiliser q tout le temps, mais c'est sûr que ça serait plus simple. "q devant eiy, et c le reste du temps" est presque aussi simple, et plus proche de l'orthographe actuelle. C'est une question de choix.

Pour quantique, ouais, il y a un certain nombre d'erreurs dans lexique.org. J'avais contacté les auteurs pour essayer de corriger les problèmes à la source, mais pas de réponse, malheureusement. Peut-être que je devrais réessayer. En attendant c'est réglé ici.

Claromale commented 6 months ago

Je continuerai de te rapporter les mots qui passent à travers le filet ^^

v-gb commented 6 months ago

D'accord. J'ai corrigé presque toutes les erreurs connues, en tout cas.

Claromale commented 6 months ago

J'ai trouvé pleins de mots qui ne sont pas convertis ! https://adjectifs.mots-deux-lettres.net/finissant-par-QUE-5.html

v-gb commented 6 months ago

C'est vrai, mais je ne suis pas sûr que ça m'avance ?

La génération du dictionnaire marche à partir d'un lexique (liste de mot avec leur phonétique essentiellement) + règle de réécriture. Ce n'est pas clair quoi faire avec une simple liste de mots. Alors c'est probablement vrai que tous les que en fin de mots sont prononcés /k/, et donc on n'a pas besoin de la phonétique. Mais dans ce cas, pourquoi utiliser une liste de mots? Peut-être qu'on devrait systématiquement réécrire tous les que en fin de mot dans un texte, avec du code plutôt qu'un dictionnaire.

Ou alors on pourrait utiliser une lexique plus gros, genre wiktionnaire. Ça donnerait une converture plus large, mais ça a des problèmes aussi (l'essentiel des mots sont extrêmement obscurs, et la taille coûterait en perf je pense, et je m'attend à ce que ses erreurs créent du travail manuel).

Au moins, il y a une nouvelle version du lexique de lexique.org en cours de préparation, donc quand ça sera sorti, ça devrait aider avec des mots courants aujourd'hui qui n'était pas courant il y a 20 ans.

Est-ce que t'observes beaucoup de mots manquants sur des pages qui ne sont pas des listes ?

v-gb commented 6 months ago

Au fait, la dernière version de l'extension (en cours de publication pour chrome) contient une règle que/c qui réécrit les que en c en fin de mot, en excluant les conjugaisons (et dans les cas comme plaque ou fabrique où le verbe et le nom sont homographes, le plus fréquent prend la main. Donc je fabrique une plac, mais je plac la fabrique alors qu'idéalement ça serait je plaque la fabric).

Claromale commented 6 months ago

Oh c'est excellent ! Je vais voir si ça marche bien !

Claromale commented 6 months ago

Dac ça marche nickel. Perso je préfère cette règle en c, mais il y a un petit problème pour les adjectifs en c qui ont leur féminin en que (franc et grec par ex) qui se retrouvent avec grèc en féminin ou turc. Peut être mettre une exception pour eux ?

(en vrai c'est pas super important, il y a bien choc et chic qui sont invariables et beaucoup d'autres adjectifs le sont aussi)

v-gb commented 6 months ago

L'accent sur grèc est bizarre, il faudrait l'enlever. Sans la règle cq/q, on se retrouve avec grecc, qui a la bonne prononciation, mais qui est aussi bizarre. On pourrait faire des exclusions pour les féminins, mais ça sera pour au autre jour, parce que pour l'instant je n'utilise pas d'information de genre grammatical (un autre cas où une liste de mot ne contient pas suffisamment d'information), et il faudrait que je refactore un peu pour éviter de faire grossir la taille de l'extension.

Claromale commented 6 months ago

Je viens de remarquer que Québec n'est pas changé en Qébec alors que québécois l'est. Si j'ai bien compris on a pas de liste pour les noms propres c'est bien ça ?

v-gb commented 6 months ago

Je me suis rendu compte il y a quelque jours qu'apparement le lexique exclut les noms propres, oui. J'ai ajouté Québec, mais bon, la liste peut-être longue.

Claromale commented 6 months ago

J'ai commencé à faire mon dico perso. Comment je fais pour le mettre et continuer d'appliquer les autres options déjà présentes sur OR ?

v-gb commented 6 months ago

Il n'y a pas de mécanisme pour combiner les dictionnaires dans l'extension ou le site. C'est probablement pas trop dur à changer, mais pas qq chose que je vais dans l'immédiat. Si t'utilises linux, je te conseillerais de télécharger le programme sur le site, générer le dictionnaire qui va bien, et concaténer ça avec tes modifications (la dernière entrée a précédence je crois).

v-gb commented 5 months ago

J'ai réfléchi à ce problème, mais autant combiner les dictionnaires est facile, autant fournir une interface ne l'est pas.

Donc j'ai fini par faire quelque chose qui devrait te permettre d'avancer : il y a maintenant un lien dans les options de l'extension pour télécharger le dictionnaire perso courant. Donc tu peux créer le dico avec les cases cochées qui t'intéressent, le télécharger, concaténer avec ton dico local, et puis charger le résultat. La première étape peut être faite une seule fois, donc ça ne devrait pas être lourd. (c'est dispo dans la version 3.1, que j'ai publiée il y a quelques minutes, donc peut-être pas encore déployée partout)

v-gb commented 5 months ago

J'ai aussi implémenté un changement (non publié pour l'instant) pour précocher les options sélectionnées dans le dictionnaire perso courant.

v-gb commented 5 months ago

J'ai publié le changement précédent, et également un changement qui permet de définir de nouvelles règles (plutôt que de simplement combiner des règles existentes). Alors ça ne permet d'exprimer que les cas simples, mais une bonne partie des cas sont simples, ou peuvent commencer comme ça : oiement/oiment cq/q qua/ca quo/co ti/ci et surement d'autres auraient pu être exprimer comme ça, avant que l'extension ne fournissent ces règles.

Claromale commented 5 months ago

Je vais regarder si mon dico perso marche. Et je teste de ce pas ta màj !

Claromale commented 4 months ago

Ahhh "12:00:25: Error: unexpected line (expected one comma per line, found 967)"

Et pourtant j'ai mis le lien https://docs.google.com/document/d/1YTPUxFuILcF-XTRQ-TK8cPQXmmUhUVVy5gYSS1r_PdI/edit?usp=sharing

Claromale commented 4 months ago

Ah non autant pour moi avec ta méthode j'ai réussi à avoir un dictionnaire perso !

v-gb commented 4 months ago

Le problème c'est que ton lien est vers une page web, alors que l'extension veut un lien vers un fichier. J'ai regardé un peu s'il est possible de modifier le lien pour que google.com serve un fichier plutôt qu'une page web, mais je ne vois pas de façon de faire ça. Avec google sheets c'est possible mais je pense que ça va rajouter des guillemets que l'extension prendra tels quels (ce qui est peut-être améliorable).

Si tu veux mettre un truc en ligne dans google drive, il faut soit que tu exporte le doc en un fichier, soit stocker un fichier directement dans google drive (mais alors plus possible de l'éditer en ligne je pense).

Claromale commented 4 months ago

Dac c'est bon j'ai réussi. Et sinon comment faire pour mettre des mots composés ? Je voudrais remplacer "soft power" par "puissance douce" mais j'ai l'impression que les espaces ne sont pas pris en compte

v-gb commented 4 months ago

Ce n'est pas possible actuellement. Je pense qu'il est possible de généraliser, mais c'est probablement suffisamment de travail pour que je ne me lance pas là dedans dans l'immédiat.

Claromale commented 4 months ago

Autant pour moi

v-gb commented 4 months ago

Si ça t'intéresse, il y a quelques fonctionnalités de plus dans le site. Il permet maintenant :

Claromale commented 3 months ago

ça s'améliore, merci !

Claromale commented 4 days ago

Salut vgb, j'ai remarqué que "labelliser/é/e" s'écrit toujours avec 2 ll.

Claromale commented 4 days ago

Tiens je l'ai aussi remarqué avec Allemagne. Certes un nom propre, mais en espagnol c'est "Alemania" sans double L, ça pourrait être intéressant d'intégrer les principaux nom propres. Je ferais une liste si tu veux.

Claromale commented 4 days ago

emphytéose emphytéotique

Claromale commented 4 days ago

vingt -> vint dix -> dis (disième) sept -> set soixante -> soissante six -> sis

v-gb commented 3 days ago

Salut vgb, j'ai remarqué que "labelliser/é/e" s'écrit toujours avec 2 ll.

labelliser est corrigé dans le dictionnaire fourni par Érofa, mais effectivement pas les participes passés et pas l'infinitif non plus dans les orthographes calculées à partir de règles, car ces mots ne sont pas dans le lexique utilisé. Apparemment, l'écriture avec simple l est déjà acceptable, mais je peux étendre le lexique.

Tiens je l'ai aussi remarqué avec Allemagne. Certes un nom propre, mais en espagnol c'est "Alemania" sans double L, ça pourait être intéressant d'intégrer les principaus nom propres. Je ferais une liste si tu veus.

Je crois que le lexique contient assez peu de noms propres, mais allemagne est dedans. Il n'est pas réécrit par les règles Érofa car c'est un nom propre, mais si tu ajoutes une règle ll/l dans l'interface, ça devrait simplifier les consonnes doubles qui ont été laissées inchangées par Érofa.

enfitéose enfitéotique

Ceux là, je les vois réécrits.

vingt -> vint dix -> dis (disième) sept -> set soixante -> soissante six -> sis

Comme d'hab, je te laisse expérimenter avec un dico perso. Dans la foulée, je pense que tu pourrais changer huit -> uit aussi (le h est du même style que dans huile, ajouté avant la distinction entre u/v à l'écrit pour signaler que le u qui suit était la voyelle. Certes, on dit le huitième et pas l'huitième, mais on dit aussi le onzième malgré l'absence de h sans que personne n'y réfléchisse).

Claromale commented 3 days ago

T'as raison, je vais monter mon dico personnel. C'est assez étrange je ne vois pas marqué "enfitéose", mais toujours avec l'orthographe traditionnelle, mais pourtant emphysème par exemple est erofaïsé. Je l'ai vu sur plusieurs appareils, ça doit être de ma faute

v-gb commented 3 days ago

Ah, emphytéose fait partie du dictionnaire fourni par Érofa, pas du lexique, donc même comportement que labelliser plus tôt. Bref, j'ai rajouté ça au lexique.