OpenPecha / bo_rag_prep_tool

MIT License
0 stars 0 forks source link

RAG0018: Build RAG Chatbot for Tibetan Text #2

Open tenzin3 opened 1 month ago

tenzin3 commented 1 month ago

Description

Make a RAG Chatbot for tibetan text with vectorization.

Important Notes

Expected Output

A Chatbot system able to give answers in tibetan.

Implementation Steps

tenzin3 commented 1 month ago

Data Prepared on Norbu-Ketaga གཏེར་ཆོས། རྩ་གསུམ་གླིང་པ།

Prepared data with Metadata-> I46409446.json

tenzin3 commented 1 month ago

Got embeddings using cohere.

embeddings.json

Cohere embeddings restriction on free trial:>

tenzin3 commented 1 month ago

cosine similarity has been used for getting the top 3 contexts according to the query.

tenzin3 commented 1 month ago

claude has been used as a LLM.

tenzin3 commented 1 month ago

New Data (My land and my people Tibetan Version).ངོས་ཀྱི་ཡུལ་དང་ངོས་ཀྱི་མི་མང་།.txt

tenzin3 commented 1 month ago

ངོས་ཀྱི་ཡུལ་དང་ངོས་ཀྱི་མི་མང་། with metadata ངོས་ཀྱི་ཡུལ་དང་ངོས་ཀྱི་མི་མང་།.json

tenzin3 commented 1 month ago

ངོས་ཀྱི་ཡུལ་དང་ངོས་ཀྱི་མི་མང་། with metadata after removing empty strings ངོས་ཀྱི་ཡུལ་དང་ངོས་ཀྱི་མི་མང་།.json

tenzin3 commented 1 month ago

ངོས་ཀྱི་ཡུལ་དང་ངོས་ཀྱི་མི་མང་། with metadata and openai embeddings

ངོས་ཀྱི་ཡུལ་དང་ངོས་ཀྱི་མི་མང་། _embeddings.json