Closed dmlls closed 3 years ago
Sección de código actual que debería ser refactorizado: Actualmente, el constructor de la clase SplitterTokenizer https://github.com/dmlls/jizt/blob/77daf04459ae8a00b9de30535beb9234fa9d5db2/src/text_summarization.py#L58 toma directamente el tokenizador como parámetro.
SplitterTokenizer
Propuesta de refactorización: Se propone, en vez de pasar el tokenizador como objeto, pasar únicamente una str indicando el modelo a emplear.
str
Por ejemplo: SplitterTokenizer("bart-base").
SplitterTokenizer("bart-base")
El modelo pasado como str debe estar incluido dentro de los modelos implementeados por Hugging Face, concretamente los modelos Bart y T5.
Motivos para la refactorización: De esta forma, se descarga al código exterior a la clase de la responsabilidad de instanciar el tokenizador, logrando una mayor simplicidad y abstracción.
Sección de código actual que debería ser refactorizado: Actualmente, el constructor de la clase
SplitterTokenizer
https://github.com/dmlls/jizt/blob/77daf04459ae8a00b9de30535beb9234fa9d5db2/src/text_summarization.py#L58 toma directamente el tokenizador como parámetro.Propuesta de refactorización: Se propone, en vez de pasar el tokenizador como objeto, pasar únicamente una
str
indicando el modelo a emplear.Por ejemplo:
SplitterTokenizer("bart-base")
.El modelo pasado como
str
debe estar incluido dentro de los modelos implementeados por Hugging Face, concretamente los modelos Bart y T5.Motivos para la refactorización: De esta forma, se descarga al código exterior a la clase de la responsabilidad de instanciar el tokenizador, logrando una mayor simplicidad y abstracción.