agutierrezmorag / unap-chatbot

Desarrollo de chatbot consciente de documentos y reglamentos pertinentes a la universidad Arturo Prat y la carrera de Ingenieria Civil en Computacion e Informatica.
https://unap-chatbot.streamlit.app/
0 stars 0 forks source link

Implementar vectorizado de nuevos documentos #6

Closed agutierrezmorag closed 8 months ago

agutierrezmorag commented 9 months ago

Descripci贸n

En la pagina de 馃搼 Documentos el usuario deber铆a ser capaz de realizar el vectorizado de los documentos que suba o elimine.

Objetivo

Implementar el vectorizado de los documentos que se suban. Tambi茅n habr谩 que realizarlo cuando se eliminen documentos. Ver si hacerlo mediante un bot贸n disponible al usuario o si se hace en el background durante la subida y eliminaci贸n.

agutierrezmorag commented 9 months ago

Ya se implement贸 el vectorizado. Se hizo mediante la disposici贸n de un bot贸n para el usuario donde, una vez apretado, se elimina el index creado en Pinecone y se crea uno nuevo con los documentos presentes en la carpeta documentos del repositorio. Hubo cierta demora en el proceso, entre 1 y 3 minutos, supongo que ira variando con la cantidad de documentos. Le tomar茅 el tiempo la pr贸xima vez que lo ejecute, un par de veces con un solo documento y otro par con todos los que tengamos.

Not茅 que al intentar eliminar m谩s de un documento es necesario ir elimin谩ndolos uno por uno, lo que es bastante lento. Reemplazar茅 el bot贸n por un checkbox, as铆 simplemente se seleccionan los documentos a eliminar, se hace click a un bot贸n y se eliminan todos de golpe.

Falta agregar instrucciones para el usuario de como es el proceso.

Tambi茅n mov铆 las constantes a su propio m贸dulo dentro de la estructura del proyecto (utils/config.py), esto con el motivo de evitar declarar las mismas constantes en ambos archivos .py (como las API keys), ahora simplemente se importa el modulo y se tienen acceso a todas las variables de entorno.

Realizar茅 el push de lo desarrollado una vez se implemente la autenticaci贸n de la pagina de administraci贸n de documentos, para evitar posibles abuso por usuarios online.

Durante el testeo ejecut茅 lo que hice, por lo que el bot desde ahora responde las preguntas seg煤n los documentos corregidos que tenemos hasta ahora (10 listos, 1 incompleto y 1 faltante).

agutierrezmorag commented 9 months ago

Me di cuenta que, como se cambio el metodo de cargar documentos (TextLoader se reemplazo por GitLoader), tambien se agrego nuevo metadata a cada vector:

imagen (antes solo era source y text)

Es importante a tener en cuenta que tambi茅n podemos agregar metadata que definamos nosotros (como el nombre del reglamento en buen formato).

agutierrezmorag commented 9 months ago

Ahora se da uso de st.dataframe para mostrar los documentos y de un st.checkbox para seleccionar uno o mas documentos a eliminar. Tambi茅n se a帽adi贸 un bot贸n de confirmaci贸n antes de proceder con la eliminaci贸n.

imagen

imagen

agutierrezmorag commented 9 months ago

Se agregaron instrucciones y se formateo un poco la pagina. Se puede mejorar.

imagen

agutierrezmorag commented 9 months ago

Se realizo un peque帽o reajuste de la IU

imagen

agutierrezmorag commented 8 months ago

Ahora los documentos son subidos a este mismo repositorio, a su propio branch: docs. Todo lo dem谩s ya ha sido implementado acordemente.