revuloj / voko-akrido

Vortanalizilo, kiu uzas gramatikon. Uzata por kontroli Revo-artikolojn.
GNU General Public License v3.0
0 stars 0 forks source link

Misanalizoj pro ordo de analizo #3

Closed wdiestel closed 3 years ago

wdiestel commented 3 years ago

La nuna algoritmo analizas la vortojn en difinita ordo, donita de la ordo de eroj en la vortaro kaj la gramatiko. Ni jam provis optimumigi tion inversigante la vortaron - tiel pli longaj radikoj venas antaŭ malpli longaj, unue ni analizas laŭ gramatikaj reguloj bazajn vortojn antaŭ kiam ni elprovas la komplikaĵojn.

Sed ni ekz-e unue provas apliki prefiksojn antaŭ sufiksoj. Tamen foje oni devus fari inverse por veni al la ĝusta rezulto aŭ alterne apliki prefikson, poste sufikson, poste alian prefikson...

Daŭrigante la analizon ĝi iom post iom trovos ĉiujn eblecojn, sed efektive ni haltas jam ĉe la unua trovita solvo.

Ekzemploj de misanalizoj: post/ulem/o anstataŭ postul/em/o k.a. Ankaŭ komencanto de Esperanto stumblas simile, sed kun lernado kaj eluzo de la kunteksto oni malmultigas tiajn misanalizojn. La algoritmo ne havas komprenon, du ne povus uzi semantikan kuntekston.

La sekvaj strategioj povas malpli multigi misanalizojn:

  1. Momente ni havas liston de esceptoj en la gramatiko, kiu subŝovas jam antaŭanalizitan formulon (plej ofte rv_sen_fin) en la analizan procedon. Tio estas plej simpla, sed bezonas kontinuan flegadon.
  2. Oni povus iamaniere eluzi la oftecon de radikoj, unue analize trovi plurajn eblecojn kaj elekti tion, kiu uzas pli oftajn radikojn
  3. Supozante ke oficialaj radikoj estas pli oftaj kaj verŝajnoj oni povus fari la unuan analizon per vortaro limigita al oficialaj radikoj kaj nur post fiasko aldone uzi la neoficialajn radikojn.
  4. Anailizi kun la kompleta vortaro, sed kiam montriĝas, ke aperas neoficiala radiko en la analizaĵo ripeti analizon per nur-oficialaj radikoj.

La opcioj 3 kaj 4 ŝajnas samaj, sed se la vorto fakte ne estas oficiala, eble oni analizas malĝuste dishakante ĝin en oficialajn vortpartojn aŭ oni serĉas longe vane. Havante jam neoficialan vorton oni povus limigi la profundecon kaj tempon reserĉante laŭ nur-oficiala vortaro por ignori tro strangajn disanalizojn. Do verŝajne 4 estus preferebla.

wdiestel commented 3 years ago

Alia ideo, kiu povus bone funkcii: