SEREMICTCI / labinstrumentos

Datos, análisis y visualizaciones del laboratorio de intrumentos ANID.
https://seremictci.github.io/labinstrumentos/
Creative Commons Zero v1.0 Universal
0 stars 0 forks source link

Dejar `{RWeka}` como dependencia #12

Closed matcasti closed 2 years ago

matcasti commented 3 years ago

Debido a su falta de compatibilidad con OS Windows (ver PR #11 para más detalles), hay que buscar una alternativa para el paquete {RWeka}.

Actualmente solo se utilizan algunas funciones de este paquete, específicamente NGramTokenizer y Weka_control, que se utilizan dentro de la función crear_sankey() como herramientas tokenizadoras dentro del paquete {tm} para seleccionar las palabras.

carlosmoralesq commented 3 years ago

Esto quedó sin solución? de ser así hoy puedo buscar alternativas.

matcasti commented 3 years ago

Sería genial, no he buscado alternativas de momento, pero en esencia tenemos que buscar alternativas para este código, específicamente para la función tokeninazadora que se usa dentro de ese flujo de trabajo

matcasti commented 2 years ago

Solucionado gracias al aporte de @carlosmoralesq por brindar referencias con código de ejemplo.

El enlace usado para solucionar este problema fue el siguiente:

Se cambio la función fun_tokenizer por la siguiente:

fun_tokenizer <- function(j, n_words) {
  j <- NLP::words(j)
  n_grams <- NLP::ngrams(j, n = n_words)
  n_grams <- lapply(n_grams, paste, collapse = " ")
  unlist(n_grams, use.names = FALSE)
}

Reemplazando de este modo la dependencia existente con el paquete {RWeka} y sus eventuales problemas de compatibilidad multiplataforma, pasando todas las comprobaciones del R-CMD-check más estricto (multiplataforma y retrocompatibilidad).

Con esto se cierra la propuesta