Closed agutierrezmorag closed 8 months ago
Ya se implement贸 el vectorizado. Se hizo mediante la disposici贸n de un bot贸n para el usuario donde, una vez apretado, se elimina el index creado en Pinecone y se crea uno nuevo con los documentos presentes en la carpeta documentos
del repositorio.
Hubo cierta demora en el proceso, entre 1 y 3 minutos, supongo que ira variando con la cantidad de documentos. Le tomar茅 el tiempo la pr贸xima vez que lo ejecute, un par de veces con un solo documento y otro par con todos los que tengamos.
Not茅 que al intentar eliminar m谩s de un documento es necesario ir elimin谩ndolos uno por uno, lo que es bastante lento. Reemplazar茅 el bot贸n por un checkbox, as铆 simplemente se seleccionan los documentos a eliminar, se hace click a un bot贸n y se eliminan todos de golpe.
Falta agregar instrucciones para el usuario de como es el proceso.
Tambi茅n mov铆 las constantes a su propio m贸dulo dentro de la estructura del proyecto (utils/config.py
), esto con el motivo de evitar declarar las mismas constantes en ambos archivos .py
(como las API keys), ahora simplemente se importa el modulo y se tienen acceso a todas las variables de entorno.
Realizar茅 el push de lo desarrollado una vez se implemente la autenticaci贸n de la pagina de administraci贸n de documentos, para evitar posibles abuso por usuarios online.
Durante el testeo ejecut茅 lo que hice, por lo que el bot desde ahora responde las preguntas seg煤n los documentos corregidos que tenemos hasta ahora (10 listos, 1 incompleto y 1 faltante).
Me di cuenta que, como se cambio el metodo de cargar documentos (TextLoader se reemplazo por GitLoader), tambien se agrego nuevo metadata a cada vector:
(antes solo era source
y text
)
Es importante a tener en cuenta que tambi茅n podemos agregar metadata que definamos nosotros (como el nombre del reglamento en buen formato).
Ahora se da uso de st.dataframe
para mostrar los documentos y de un st.checkbox
para seleccionar uno o mas documentos a eliminar. Tambi茅n se a帽adi贸 un bot贸n de confirmaci贸n antes de proceder con la eliminaci贸n.
Se agregaron instrucciones y se formateo un poco la pagina. Se puede mejorar.
Se realizo un peque帽o reajuste de la IU
Ahora los documentos son subidos a este mismo repositorio, a su propio branch: docs
. Todo lo dem谩s ya ha sido implementado acordemente.
Descripci贸n
En la pagina de
馃搼 Documentos
el usuario deber铆a ser capaz de realizar el vectorizado de los documentos que suba o elimine.Objetivo
Implementar el vectorizado de los documentos que se suban. Tambi茅n habr谩 que realizarlo cuando se eliminen documentos. Ver si hacerlo mediante un bot贸n disponible al usuario o si se hace en el background durante la subida y eliminaci贸n.