estnltk / estnltk

Open source tools for Estonian natural language processing
GNU General Public License v2.0
113 stars 20 forks source link

Disambiguator esmane käivitamine laeb midagi kasutaja home kataloogi #88

Closed mlaubre closed 5 years ago

mlaubre commented 7 years ago

Järgmine koodijupp...

disamb = Disambiguator()
disambiguatedText = disamb.disambiguate([text])
analysedWords = disambiguatedText[0].get.word_texts.lemmas.postags.forms.as_dataframe

...tingib nltk_data/tokenizers/punkt* failide allalaadimise ja paigutamise kasutaja home kataloogi. Kui skriptil on mitmeid kasutajaid, laetakse kõigile sama sisu. Lisaks pole mõnel eri-kasutajal home kataloogi, mida sisustada, mis tingib veaolukorra.

Kas oleks mõeldav, et sellise sisu laadimine toimuks etteantud universaalsesse asukohta (ühekordselt)?

Lugupidamisega ML

soras commented 7 years ago

Tere!

Täpsustaks niipalju, et see pole otseselt Disambiguator'iga seotud, vaid on seotud lausestajaga (tokenizer), mis on paljude keeletöötlussammude (sh Disambiguator'i) baasoperatsioon. Täpselt sama peaks toimuma, kui sisestada nt:

from estnltk import Text
text = Text('Üle oja mäele, läbi oru jõele. Ämber läks ümber.')
text.tokenize_sentences()

Lausestusmudeli allalaadimine on ühekordne operatsioon: kui see on juba kord tehtud, siis rohkem seda vaja teha ei peaks olema. EstNLTK kasutab selleks tegelikult NLTK abi ( täpsemalt siis meetodit http://www.nltk.org/api/nltk.html#nltk.data.load ) ja NLTK vaikesätted määravad, kuhu mudel pannakse. Põhimõtteliselt peaks olema võimalik neid sätteid ka muuta, aga ise pole proovinud ja ei oska praegu rohkem juhatada. Muidu arutatakse leheküljel http://stackoverflow.com/questions/3522372/how-to-config-nltk-data-directory-from-code, kuidas seda vaikekausta muuta koodi sees: ehk saab sealt nõu või siis ehk edasisi viiteid lahenduse otsimiseks.

Parimat, SO