pelegrinova / morfo_segmentace

poloautomatická segmentace textu na morfémy + výpočet dat pro MAL: pokusy
3 stars 1 forks source link

Zjednoduš načítání souboru k autosegmentaci #33

Closed Glutexo closed 2 years ago

Glutexo commented 2 years ago

Použití split() místo split(sep=" ") umožní vynechat strip().

K tomuto bych měl drobnou výhradu. Vstupem automatické segmentace je předchroupaný soubor známého formátu. Víme, že obsahuje právě jeden řádek a na tomto jsou slova oddělená právě jednou mezerou. Proto odstranění koncového nového řádku a následné rozdělení po jedné mezeře je velmi přesné a efektivní zpravování. 👍🏻 V takovém případě bych však nahradil strip() za rstrip(), neboť potřebujeme odstranit pouze koncový nový řádek textového souboru vědouce, že na začátku souboru se žádný bílý znak nacházet nemůže.

Výhodou navrženého split() bez strip() je naopak to, že je to kratší a teoreticky čitelnější. Pro počítač spíše náročnější a ne tolik sémantické. Vytvořil jsem proto ještě alternativní #34 a zvol si, co se ti líbí více.

pelegrinova commented 2 years ago

vyřešeno alternativním pull requestem #34