Open tvluon opened 4 years ago
Chào bạn, Mình đã upload lại file SlipData.ipynb thay bằng file ProcessData_Model.ipynb. File mới này có phần chia data lớn gồm 138990 dòng thành 3 file train, test, val với tỉ lệ 6:2:2 (Mình để code ghi ra file 3 tập train, val, test trong phần chú thích, vì file ProcessData_Model.ipynb là tổng tất cả các bước từ tiền xử lí, model đến test luôn nên việc trích xuất ra 3 tập train, test, val mình thấy là không cần thiết, nếu bạn muốn dùng thì cứ xóa dấu # là được nha).
Nhóm mình chia thành 2 hướng để làm đồ án này. Phần dùng 5000 samples để train và test đang là phần bạn Tín làm. Còn mình thì dùng phương pháp khác (có dùng pipeline như thầy đã dạy) và mình dùng toàn bộ dữ liệu có được cho đồ án này.
Bạn Tín làm theo hướng Word2Vec, còn mình làm Bag of Words, có kết hợp TF-IDF sau khi dùng Bag of Words ( bạn kéo xuống phần mô hình hóa dữ liệu sẽ thấy). Kết quả độ chính xác trên tập Validation đạt được khá cao, đều từ 90% trở lên. Kết quả:
RandomForest với tham số n_jobs = 5
Cảm ơn góp ý của bạn.
@TrinhThiToUyen Cảm ơn bạn đã trả lời,
SplitData.ipynb
và DataScience_Text_Classification.ipynb
chạy một lượt với nhau nên mình mới nghĩ là cần xuất ra file csv ^.^
Mình có xem qua project của nhóm bạn (hình như các bạn chưa làm xong) và có một số thắc mắc cũng như góp ý sau:
SplitData.ipynb
phảii không? Mình chưa thấy đoạn export ra 3 file train.csv, val.csv, test.csv như mô tả trong README.DataScience_Text_Classification.ipynb
thì các bạn chỉ sử dụng có 5000 samples để train và validation thôi?