pelegrinova / morfo_segmentace

poloautomatická segmentace textu na morfémy + výpočet dat pro MAL: pokusy
3 stars 1 forks source link

♻️ Sesyp úpravu textu do funkce #35

Open Glutexo opened 3 years ago

Glutexo commented 3 years ago

Převod textu na malá písmena je součástí jeho normalizace pro náhradu grafémů, nikoliv načítání souboru. Stejně tak převod nových řádků na mezery, jenž se doplňuje s odstraněním nadbytečných mezer.

Teoreticky sporné je odstranění koncového nového řádku. Funkce však již s novými řádky nakládá a snaží se o převod surového textu na sled slov. Proto přesunuta i tato operace.

Glutexo commented 3 years ago

Náhrada split(sep=" ") za split() umožnila odebrat převod nových řádků na mezery i odstraňování koncového nového řádku. Tím se tato změna výrazně zjednodušuje a odstraňuje se i jediný možně sporný bod.

Přeskládáno a tím vyřešen konflikt.