Open GoogleCodeExporter opened 8 years ago
Original comment by bpgergo
on 1 Mar 2011 at 8:51
Original comment by attila.b...@gmail.com
on 21 Mar 2011 at 8:29
Látom ownoltad, köszönjük. Adok pár támpontot. Háttérinfó: a
dokumentumból a harness mondatpárokat nyer ki, amiket belerak a bisen
táblába. A bisen tábla új recordjain duplumszűrés majd indexelés
történik. Ott már nem végzünk semmilyen dokumentum-szintű manipulációt,
az egység a mondatpár.
1. Az, hogy lefutott-e a dokumentumpárra a harness, megtudható az
upload.is_processed mezőből:
Y = processed, N = not processed, E = processed with error, L = processed
without error but the result is of bad quality, P - is currently being processed
(P azt jelenti, hogy a harness fut rajta éppen. Vigyázat, ahogy már fent is
írtam, az Y nem igéri, hogy lefutott a duplumszűrés és indexelés is.)
2. Ha a lekérdezéskor már lefutott a harness, akkor ki kellene írni a doksi
bimondatait. Hogy melyek egy dokumentum bimondatai, megtudható az egyszerű
select hu_sentence,en_sentence,state from bisen where doc=?
lekérdezésből. Ezt tényleg csak akkor szabad kiadni, ha az
upload.is_processed="Y", különben úgyis nulla recordot adna.
A state sokféle lehet, de ez első közelítésben nagyjából mindegy a
feltöltő felhasználó szempontjából, neki hu_sentence és en_sentence a
fontos. Később ezt csiszolhatjuk, de state-et azért addig is írjuk ki
hamárakkor.
3. Sajnos jelenleg nincs olvasmányos human-readable report arról, hogy egy
harness miért vallott kudarcot, azaz miért kellett elhajítani a
dokumentumpárt. Később ezt lehet, hogy megcsinálom. Addig is a releváns
metaadatok egy része emésztetlen formában itt található:
${deployment.dir}/harness.data/align/bimeta/${upload.id}.align.bimeta
Ezt ki kellene dumpolni a visszajelzési oldal tetejére, függetlenül attól,
hogy sikerült-e a harness.
Original comment by Varga.Da...@gmail.com
on 21 Mar 2011 at 10:13
Original issue reported on code.google.com by
Varga.Da...@gmail.com
on 1 Mar 2011 at 7:16