dav009 / awesome-spanish-nlp

Curated list of Linguistic Resources for doing NLP & CL on Spanish
329 stars 41 forks source link

How to create linguistic resources for spanish (Como crear recursos para Spanish/Castellano) #2

Open martinmurciego opened 7 years ago

martinmurciego commented 7 years ago

Se Ud habla castellano porque te vi en un programa de DevHangout. Te cuento soy un estudiante de licenciatura en sistemas de información avanzado --si me decido pronto terminare--. En mi facultad aunque hay gente que trabaja en recuperación de información (meta buscadores científicos) y en Data Mining (outleiers y...) algo de IA(Sistemas Expertos, Redes Neuronales, etc). No hay mucha gente que trabaje con PLN. Yo como soy alguien que le gusta la programación soy un poco mas pragmático. Sempre le veo antes lo de crear herramientas útiles antes de lo de grandes descubrimiento o de prestigio científico. Pero quien sabe algún momento me decido termino y quizás me especialice en el tema de PLN porque me interesa. El Dr Olivas Varela que algunas veces diserto en mi Facultad dijo algo así que: ...el que los Sistemas sean inteligentes se debe mas a la habilidad de interpretar el lenguaje natural que la de utilizar sensores para todo...

Me interesa iniciarme al Procesamiento del Lenguaje Natural para poder crear aplicaciones utiles o mejorar otras. Ademas de iniciarme apunto a recursos en castellano. No se si se entiende la pregunta, es dado un dominio y quizás eligiendo algunos corpus de texto. Como hago para reunir o crear mas recursos lingüísticos para este idioma que se que resulta complejo de analizar. Ademas de Python / Java / Javascript, Que herramientas PLN uso para spanish: Freeling, OPeNLP, Gate? Trato de bajar un Wordnet en Spanish? Me gustaría elegir un dominio y de ahí con recursos no se si: anotados o tagged, entrenados en una red neuronal, en forma de ontologia del dominio poder crear herramientas útiles para recuperación, extracción de información, practicas de machine learning, sistemas de recomendación, lo que surja.

Se que hay mucho para ingles y que es un idioma de menos palabras muy estructurado a pesar de tener variantes. Vi que hay recursos en spanish pero los mejores repositorios lo manejan empresas u organizaciones medio cerradas. Si se puede crear recursos linguisticos para spanish dentro de filosofia open data me interesa.

Saludos. Muy interesante área la que trabajas.

redeemefy commented 6 years ago

Saludos @martinmurciego Has conseguido corpus de quejas en español? Yo estoy tratando de conseguir y no puedo encontrar.

dav009 commented 6 years ago

@diazgilberto si es para una investigacion academica podrias intentar solicitando datos a algunas companias, varios sitios web agregan quejas.

redeemefy commented 6 years ago

Saludos @dav009, tienes algun link que puedas compartir. En particular, yo estoy buscando quejas sobre la industria de la banca.