miglesias91 / dlm-lector

lector de dicenlosmedios.
MIT License
1 stars 0 forks source link

adaptar el procesamiento al nlp de stanford #9

Closed miglesias91 closed 3 years ago

miglesias91 commented 3 years ago

agregar frecuenciasstanfordnlp.py, que use el wrapper de python. al toque.

miglesias91 commented 3 years ago

java -mx1g -cp "herramientas/stanford-corenlp-4.2.0/*" edu.stanford.nlp.pipeline.StanfordCoreNLPServer -serverProperties StanfordCoreNLP-spanish.properties -props spanish -annotators "tokenize,ssplit,pos,lemma,ner" -port 9000 -timeout 15000

con eso levanto corenlp server local para desarrollar

miglesias91 commented 3 years ago

usar Stemmer. stanford no tiene lemmatizador en español. adaptarlo a stemmer y a la mierda. ver de guardar palabras completas pero cuando buscamos aplicarle stemmer.

miglesias91 commented 3 years ago

vuelta de rosca para lemmatizar: traduzco al ingles, lemmatizo en ingles, y vuelvo a traducir al español. A CHEQUEAR:

miglesias91 commented 3 years ago

ver de meter un traductor local: apertium, freedict, etc etc.

miglesias91 commented 3 years ago

testear branch corenlp en ssh-admin. ver si corre.

miglesias91 commented 3 years ago

corre todo. desde ssh-admin us ssh-dlm-nlp. correr dlm-leer en ssh-admin y si funca ya dejarlo ahi y dar de baja el de aws.

miglesias91 commented 3 years ago

desde ssh-admin levantar corenlp con levantar-corenlp-nohup & : nohup java -mx1g -cp "/home/ubuntu/stanford-corenlp-4.2.1/*" edu.stanford.nlp.pipeline.StanfordCoreNLPServer -serverProperties StanfordCoreNLP-spanish.properties -props spanish -annotators "tokenize,ssplit,pos,lemma,ner" -quiet true -port 9000 -timeout 15000