Closed wdiestel closed 9 months ago
En afisx.xml aperas ekz-e:
<trdgrp lng="ro">
<trd>afiş</trd>,
<trd>anunţ</trd>
</trdgrp>
do aŭ la eraro estas kaŭzita de la DTD (aŭ malkonvena enigmetodo ĉe la redaktanto):
<!-- rumanaj -->
<!ENTITY Abreve "Ă">
<!ENTITY abreve "ă">
<!ENTITY Tcedil "Ţ">
<!ENTITY tcedil "ţ">
<!-- turkaj ne jam menciitaj -->
...
<!ENTITY Scedil "Ş">
<!ENTITY scedil "ş">
La ĝustaj por rumana do estus:
Ș (U+0218)
ș (U+0219)
Ț (U+021A)
ț (U+021B)
Ankaŭ enŝteliĝis cirilaj literoj, ekz-e en turki/ &c_T;urcia
Oni povas anstataŭigi la literojn per:
perl -i -pe "s/Ş/Ș/sg" revo/a*
perl -i -pe "s/ş/ș/sg" revo/a*
perl -i -pe "s/Ţ/Ț/sg" revo/a*
perl -i -pe "s/ţ/ț/sg" revo/a*
sed poste devas kontroli ĉiujn ŝanĝoj, ke ni ne ekz-e ŝanĝis turkan tradukon a.s.
Eble la ReVo-kontrolilo povus doni eraron (aŭ averton), kiam oni uzas signon, kiu ne ekzistas en la alfabeto de la koncerna lingvo. Aŭ eble ĝi eĉ povus aŭtomate konverti iujn signojn al aliaj signoj, por iuj lingvoj.
Ankaŭ enŝteliĝis cirilaj literoj, ekz-e en turki/
&c_T;urcia
Mi trovis kelkajn tiajn okazojn per grep
, kaj mane korektis ilin. Sed nun mi vidas, ke la malo ankaŭ okazis: enŝteliĝis latinaj literoj en cirilaj vortoj.
Eble oni devos trovi mezan solvon inter tro strikta kontrolo per la skemo kaj tro pena mana kontrolo: ekz-e latinaj vortoj povas esti intence en klarigoj de cirila lingvo, sed ne aperu en sama vorto kun cirilaj literoj. Eble oni povus verki kontrolskripton surbaze de merge_trd_xml.pl kaj iom post iom aldoni kontrolesprimojn por certaj lingvoj. Tiam de tempo al tempo rulu la skripton kaj mane postkontrolu... certagrade oni povus ankaŭ aŭtomate fari anstataŭigojn, ekz-e se latina litero "a" aperas meze de cirila vorto...
Mi serĉis apudestajn cirilajn kaj latinajn literoj per:
grep -E "[a-z]�?4[1-4][0-9A-Fa-f];" revo/*
grep -E "�?4[1-4][0-9A-Fa-f];[a-z]" revo/*
Momente tio donas neniujn trafojn. Sed tiuj donas kelkajn kontrolindajn:
grep -E "&c_[^;]+;[a-z]" revo/*
grep -E "[a-z]&c_[^;]+;" revo/*
korekto de DTD estos en eldono 2k
trovo de Paŭlo:
mi rimarkis, ke estas nemalmultaj eraraj diakritoj en rumanaj tradukoj. Iu kunlaboranto regule uzas la turkan ţ anstataŭ la rumanan ț.
Mi ĵus korektis tion en du lokoj, sed pripensis, ke eble estas pli racie fari tion per unu ordono. Ĉie, kie en
<trd lng="ro">
aŭ en<trdgrp lng="ro">
aperas ţ, oni anstataŭigu ĝin per ț.Aŭ eble
ţ
estuț
depende de via sistemo.--
la sama eraro aperas sub la litero s. Ekzemple
afiş (erara) afișa (ĝusta)
Do ankaŭ ĉiuj ş estu ș.
Taskoj: