revuloj / revo-fonto

Artikolfonto kaj bildoj - do la enhavo de Reta Vortaro
GNU General Public License v2.0
17 stars 0 forks source link

malĝustaj diakritoj en rumanaj tradukoj #52

Closed wdiestel closed 9 months ago

wdiestel commented 1 year ago

trovo de Paŭlo:

mi rimarkis, ke estas nemalmultaj eraraj diakritoj en rumanaj tradukoj. Iu kunlaboranto regule uzas la turkan ţ anstataŭ la rumanan ț.

Mi ĵus korektis tion en du lokoj, sed pripensis, ke eble estas pli racie fari tion per unu ordono. Ĉie, kie en <trd lng="ro"> aŭ en <trdgrp lng="ro"> aperas ţ, oni anstataŭigu ĝin per ț.

Aŭ eble &#355; estu &#539; depende de via sistemo.

--

la sama eraro aperas sub la litero s. Ekzemple

afiş (erara) afișa (ĝusta)

Do ankaŭ ĉiuj ş estu ș.

Taskoj:

wdiestel commented 1 year ago

vd. tabelon en https://de.wikipedia.org/wiki/Rum%C3%A4nisch-kyrillisches_Alphabet

wdiestel commented 1 year ago

En afisx.xml aperas ekz-e:

  <trdgrp lng="ro">
      <trd>afi&scedil;</trd>,
      <trd>anun&tcedil;</trd>
    </trdgrp>

do aŭ la eraro estas kaŭzita de la DTD (aŭ malkonvena enigmetodo ĉe la redaktanto):

<!-- rumanaj -->

<!ENTITY Abreve "&#x0102;">
<!ENTITY abreve "&#x0103;">
<!ENTITY Tcedil "&#x0162;">
<!ENTITY tcedil "&#x0163;">

<!-- turkaj ne jam menciitaj -->
...
<!ENTITY Scedil "&#x015e;">
<!ENTITY scedil "&#x015f;">
wdiestel commented 1 year ago

La ĝustaj por rumana do estus:

Ș (U+0218)
ș (U+0219)
Ț (U+021A)
ț (U+021B)
wdiestel commented 1 year ago

Ankaŭ enŝteliĝis cirilaj literoj, ekz-e en turki/ &c_T;urcia

wdiestel commented 1 year ago

Oni povas anstataŭigi la literojn per:

perl -i -pe "s/&Scedil;/&#x0218;/sg" revo/a*
perl -i -pe "s/&scedil;/&#x0219;/sg" revo/a*
perl -i -pe "s/&Tcedil;/&#x021a;/sg" revo/a*
perl -i -pe "s/&tcedil;/&#x021b;/sg" revo/a*

sed poste devas kontroli ĉiujn ŝanĝoj, ke ni ne ekz-e ŝanĝis turkan tradukon a.s.

RobinvanderVliet commented 1 year ago

Eble la ReVo-kontrolilo povus doni eraron (aŭ averton), kiam oni uzas signon, kiu ne ekzistas en la alfabeto de la koncerna lingvo. Aŭ eble ĝi eĉ povus aŭtomate konverti iujn signojn al aliaj signoj, por iuj lingvoj.

RobinvanderVliet commented 1 year ago

Ankaŭ enŝteliĝis cirilaj literoj, ekz-e en turki/ &c_T;urcia

Mi trovis kelkajn tiajn okazojn per grep, kaj mane korektis ilin. Sed nun mi vidas, ke la malo ankaŭ okazis: enŝteliĝis latinaj literoj en cirilaj vortoj.

wdiestel commented 1 year ago

Eble oni devos trovi mezan solvon inter tro strikta kontrolo per la skemo kaj tro pena mana kontrolo: ekz-e latinaj vortoj povas esti intence en klarigoj de cirila lingvo, sed ne aperu en sama vorto kun cirilaj literoj. Eble oni povus verki kontrolskripton surbaze de merge_trd_xml.pl kaj iom post iom aldoni kontrolesprimojn por certaj lingvoj. Tiam de tempo al tempo rulu la skripton kaj mane postkontrolu... certagrade oni povus ankaŭ aŭtomate fari anstataŭigojn, ekz-e se latina litero "a" aperas meze de cirila vorto...

wdiestel commented 1 year ago

Mi serĉis apudestajn cirilajn kaj latinajn literoj per:

grep -E "[a-z]&#x0?4[1-4][0-9A-Fa-f];" revo/*
grep -E "&#x0?4[1-4][0-9A-Fa-f];[a-z]" revo/*

Momente tio donas neniujn trafojn. Sed tiuj donas kelkajn kontrolindajn:

grep -E "&c_[^;]+;[a-z]" revo/*
grep -E "[a-z]&c_[^;]+;" revo/*
wdiestel commented 10 months ago

korekto de DTD estos en eldono 2k