Open tenzin3 opened 1 month ago
Data Prepared on Norbu-Ketaga གཏེར་ཆོས། རྩ་གསུམ་གླིང་པ།
Prepared data with Metadata-> I46409446.json
Got embeddings using cohere.
Cohere embeddings restriction on free trial:>
cosine similarity has been used for getting the top 3 contexts according to the query.
claude has been used as a LLM.
New Data (My land and my people Tibetan Version).ངོས་ཀྱི་ཡུལ་དང་ངོས་ཀྱི་མི་མང་།.txt
ངོས་ཀྱི་ཡུལ་དང་ངོས་ཀྱི་མི་མང་། with metadata ངོས་ཀྱི་ཡུལ་དང་ངོས་ཀྱི་མི་མང་།.json
ངོས་ཀྱི་ཡུལ་དང་ངོས་ཀྱི་མི་མང་། with metadata after removing empty strings ངོས་ཀྱི་ཡུལ་དང་ངོས་ཀྱི་མི་མང་།.json
ངོས་ཀྱི་ཡུལ་དང་ངོས་ཀྱི་མི་མང་། with metadata and openai embeddings
Description
Make a RAG Chatbot for tibetan text with vectorization.
Important Notes
Expected Output
A Chatbot system able to give answers in tibetan.
Implementation Steps