dmlls / jizt-tfg

Servicio de Resumen de Textos con AI en la Nube (versión TFG).
https://dmlls.github.io/jizt-tfg-website/
GNU General Public License v3.0
13 stars 3 forks source link

[Encoder] Refactorizar constructor #48

Closed dmlls closed 3 years ago

dmlls commented 3 years ago

Sección de código actual que debería ser refactorizado: Actualmente, el constructor de la clase SplitterTokenizer https://github.com/dmlls/jizt/blob/77daf04459ae8a00b9de30535beb9234fa9d5db2/src/text_summarization.py#L58 toma directamente el tokenizador como parámetro.

Propuesta de refactorización: Se propone, en vez de pasar el tokenizador como objeto, pasar únicamente una str indicando el modelo a emplear.

Por ejemplo: SplitterTokenizer("bart-base").

El modelo pasado como str debe estar incluido dentro de los modelos implementeados por Hugging Face, concretamente los modelos Bart y T5.

Motivos para la refactorización: De esta forma, se descarga al código exterior a la clase de la responsabilidad de instanciar el tokenizador, logrando una mayor simplicidad y abstracción.