telexyz / GPT4VN

Ai cũng có thể tự tạo chatbot bằng huấn luyện chỉ dẫn, với 12G GPU (RTX 3060) và khoảng vài chục MB dữ liệu
108 stars 35 forks source link

GPT4VN

Hãy biến mô hình ngôn ngữ thành chatbot

https://user-images.githubusercontent.com/8133/228418280-ba026ee4-11ef-4c8e-9edf-cd90ba2dfd1c.mp4

THAM GIA THẢO LUẬN TẠI https://discord.gg/NuYwhH6Kbb

Dữ liệu chỉ dẫn và hội thoại

Để tạo một file huấn luyện chung dùng lệnh:

cat vi*.jsonl > vi_merged.jsonl

Show me the results

python3 chatbot.py

vietnam-chatbot

TRẢI NGHIỆM VỚI CHATBOT TẠI https://discord.gg/fQ9ja2jBR9

Show me how

cat data/vi*.jsonl > data/vi_merged.jsonl
python3 finetune.py --data_path 'data/vi_merged.jsonl' --base_model 'VietAI/gpt-j-6B-vietnamese-news' \
    --batch_size=128 --micro_batch_size 2 --cutoff_len 512 --num_epochs 1 --output_dir 'chat-gpt-j-6B-1e'

Ví dụ trên huấn luyện chỉ dẫn VietAI/gpt-j-6B-vietnamese-news với 224 nghìn câu trên GPU 3060 12G vram hoàn tất 1 epoch trong khoảng hơn 21h.

Chạy với google colab với model nhỏ hơn tại https://colab.research.google.com/drive/11XSZkOfoPbFIIGAs9gRgMuLVQ9mJBPIi image image