Ứng dụng hỗ trợ tra cứu, hỏi đáp tri thức pháp luật dựa trên Bộ pháp điển và CSDL văn bản QPPL Việt Nam.
Mục tiêu là phát triển một hệ thống tra cứu, hỏi đáp tri thức pháp luật Việt Nam. Dựa trên các mô hình ngôn ngữ lớn cùng với nền tảng lowcode.
Dự án được open source theo giấy phép GNU General Public License v3.0 bởi đội tác giả HIT-OS.
Để biết thêm chi tiết về cuộc thi, bạn có thể xem tại đây.
Link thuyết trình Canva tại cuộc thi [link]()
Slide bài thuyết trình tại cuộc thi dưới dạng PDF có thể được truy cập tại đây: [Slide]()
Project tập trung vào các chức năng chính như sau:
Backend của hệ thống được thiết kế theo kiến trúc microservices, với các công nghệ sử dụng như sau:
Sử dụng mô hình Vietnamese SBERT để tạo embedding cho các tri thức pháp luật. Các embedding được lưu vào Chroma - một loại vector database.
Sau đó, xây dựng hệ thống RAG với framework LangChain để truy vấn các context là các điều từ pháp điển, sau đó đưa context cho mô hình LLM để sinh ra các câu trả lời.
Mô hình LLM chọn sử dụng là phoGPT, kết hợp context và câu hỏi để sinh câu trả lời.
Project CI/CD sử dụng Github và Github Actions để tự động hóa quá trình build và deploy. Quy trình như hình vẽ sau:
![CI/CD]()
Các workflows của project được lưu tại: .github/workflows, với các workflow như sau:
Tất cả các images build từ services backend bạn có thể tìm thấy tại [Docker Hub]().
Để cài đặt và chạy được dự án, trước tiên bạn cần phải cài đặt các công cụ bên dưới. Hãy thực hiện theo các hướng dẫn cài đặt sau, lưu ý chọn hệ điều hành phù hợp với máy tính của bạn:
Lưu ý: NextJS 14 chỉ tương thích với NodeJS từ version 18 trở lên.
Trước hết, hãy clone dự án về máy tính của bạn:
git clone https://github.com/HIT-OS/VN_Legal_Document_Retrieval.git
cd vào thư mục VN_Legal_Document_Retrieval:
cd VN_Legal_Document_Retrieval
Bước này chỉ cần chạy một lần duy nhất để lấy dữ liệu pháp điển và các văn bản quy phạm pháp luật vào cơ sở dữ liệu MySQL. Nếu bạn đã có dữ liệu, bạn có thể bỏ qua bước này và tự import vào hệ thống với hướng dẫn phía dưới.
Để cào dữ liệu, hãy:
cd law-crawler
Và tiếp tục theo hướng dẫn trong thư mục law-crawler README.md.
cd server
docker-compose up -d
Mọi đóng góp của các bạn đều được trân trọng, đừng ngần ngại gửi pull request cho dự án.
This project is licensed under the terms of the GPL V3 license.