Closed mlaubre closed 5 years ago
Tere!
Täpsustaks niipalju, et see pole otseselt Disambiguator'iga seotud, vaid on seotud lausestajaga (tokenizer), mis on paljude keeletöötlussammude (sh Disambiguator'i) baasoperatsioon. Täpselt sama peaks toimuma, kui sisestada nt:
from estnltk import Text
text = Text('Üle oja mäele, läbi oru jõele. Ämber läks ümber.')
text.tokenize_sentences()
Lausestusmudeli allalaadimine on ühekordne operatsioon: kui see on juba kord tehtud, siis rohkem seda vaja teha ei peaks olema. EstNLTK kasutab selleks tegelikult NLTK abi ( täpsemalt siis meetodit http://www.nltk.org/api/nltk.html#nltk.data.load ) ja NLTK vaikesätted määravad, kuhu mudel pannakse. Põhimõtteliselt peaks olema võimalik neid sätteid ka muuta, aga ise pole proovinud ja ei oska praegu rohkem juhatada. Muidu arutatakse leheküljel http://stackoverflow.com/questions/3522372/how-to-config-nltk-data-directory-from-code, kuidas seda vaikekausta muuta koodi sees: ehk saab sealt nõu või siis ehk edasisi viiteid lahenduse otsimiseks.
Parimat, SO
Järgmine koodijupp...
...tingib
nltk_data/tokenizers/punkt*
failide allalaadimise ja paigutamise kasutajahome
kataloogi. Kui skriptil on mitmeid kasutajaid, laetakse kõigile sama sisu. Lisaks pole mõnel eri-kasutajalhome
kataloogi, mida sisustada, mis tingib veaolukorra.Kas oleks mõeldav, et sellise sisu laadimine toimuks etteantud universaalsesse asukohta (ühekordselt)?
Lugupidamisega ML