Softcatala / conjugador

conjugador
7 stars 3 forks source link

Remissions: definicions que es perden en l'extracció. #37

Closed jmontane closed 9 months ago

jmontane commented 9 months ago

Al Viccionari, alguns verbs només tenen com a definició una remissió a un altre verb. Aquestes definicions no les exportem al Conjugador perquè estan generades amb una plantilla {{forma-a|ca|...}}, que suprimim en l'extracció de les definicions.

Alguns exemples:

El cas de 'corregnar' és curiós: el Viccionari té com a preferent, amb definicions, la forma 'coregnar'. I 'corregnar' remet a 'coregnar'. Al Conjugador, però, només recollim 'corregnar', sense definició pel problema descrit en aquest tiquet.

jordimas commented 9 months ago

Vegeu també la documentació de la plantilla: https://ca.wiktionary.org/wiki/Plantilla:forma-a

jordimas commented 9 months ago

Em surten 3097 usos d'aquesta plantilla al dump cawiktionary-latest-pages-meta-current.xml.bz2 que tenim actualment al conjugador. Caldria veure quan són verbs.

Entenc que que es suggereix és posar un enllaç cap al terme de la plantilla, oi?

M'ajudaria molt definir aquestes qüestions:

jmontane commented 9 months ago

He fet un petit retoc al codi per a substituir les plantilles {{forma-a|ca per una marca. Es passa de 6336 definicions i 3871 verbs sense cap definició a 6485 defincions i 3721 verbs sense definició. Guanyaríem definicions per a 150 verbs.

Tot això només ho faria si al Viccionari el verb només té com a definició la plantilla {{forma|ca|- }}. És a dir, si no té contingut textual net a les definicions. Els verbs principals (p. ex "sadollar") tenen remissió (cap a 'assadollar') i definicions textuals. No tinc clar si també hauríem d'enllaçar des de la forma principal (sadollar) cap a la secundària (assadollar).

El que proposo:

jmontane commented 9 months ago

Jordi, aquí hi ha un pedaç que tracta la plantilla {{forma|ca|..} i també {{marca|ca|...} que hi ha a les definicions. Amb això passem a 6491 definicions i 3715 verbs sense definicions.

jordimas commented 9 months ago

He fet una proposta de solució a: https://github.com/Softcatala/conjugador/pull/39

Inclou totes les dades que canvien

jmontane commented 9 months ago

Genial!

Un parell de coses:

  1. Al definitions.txt hi ha verbs que queden "enganxats" (no hi ha línia en blanc que els separi). P. ex. retxar i retòrcer, o rissar i riure. Ho comento per si aquesta línia en blanc és important després.
  2. Algunes remissions (p.ex. retxar) van precedides de marques dialectals o formalitat, amb la plantilla {{marca|ca|...}}. Si es pot exportar aquesta informació al definitions.txt, genial. I si no, doncs no passa res.
jordimas commented 9 months ago

Et comento

  1. No hauria de ser un problema
  2. Ho deixem pel futur, ja són prou canvis de moment
jordimas commented 9 months ago

Pujat a producció, gràcies!