[Team 2] Thắc mắc và góp ý

tvluon commented 4 years ago

Mình có xem qua project của nhóm bạn (hình như các bạn chưa làm xong) và có một số thắc mắc cũng như góp ý sau:

Theo mình thấy thì hình như các bạn chưa sử dụng tới file SplitData.ipynb phảii không? Mình chưa thấy đoạn export ra 3 file train.csv, val.csv, test.csv như mô tả trong README.
Cũng theo như mô tả thì dữ liệu có 138990 dòng nhưng mà mình thấy trong file DataScience_Text_Classification.ipynb thì các bạn chỉ sử dụng có 5000 samples để train và validation thôi?
Mình thấy các bạn dùng Word2Vec để xử lý dữ liệu văn bản, các bạn có thử dùng Bag of Words chưa? Nếu có thì kết quả như thế nào?
Mình góp ý các bạn nên gộp phần tiền xử lý dữ liệu và phân lớp lại thành một pipeline như thầy đã dạy trên lớp để tiện cho việc huấn luyện và kiểm tra mô hình. Cảm ơn các bạn đã đọc.

TrinhThiToUyen commented 4 years ago

Chào bạn, Mình đã upload lại file SlipData.ipynb thay bằng file ProcessData_Model.ipynb. File mới này có phần chia data lớn gồm 138990 dòng thành 3 file train, test, val với tỉ lệ 6:2:2 (Mình để code ghi ra file 3 tập train, val, test trong phần chú thích, vì file ProcessData_Model.ipynb là tổng tất cả các bước từ tiền xử lí, model đến test luôn nên việc trích xuất ra 3 tập train, test, val mình thấy là không cần thiết, nếu bạn muốn dùng thì cứ xóa dấu # là được nha).

Nhóm mình chia thành 2 hướng để làm đồ án này. Phần dùng 5000 samples để train và test đang là phần bạn Tín làm. Còn mình thì dùng phương pháp khác (có dùng pipeline như thầy đã dạy) và mình dùng toàn bộ dữ liệu có được cho đồ án này.
Bạn Tín làm theo hướng Word2Vec, còn mình làm Bag of Words, có kết hợp TF-IDF sau khi dùng Bag of Words ( bạn kéo xuống phần mô hình hóa dữ liệu sẽ thấy). Kết quả độ chính xác trên tập Validation đạt được khá cao, đều từ 90% trở lên. Kết quả:
RandomForest với tham số n_jobs = 5

Cảm ơn góp ý của bạn.

tvluon commented 4 years ago

@TrinhThiToUyen Cảm ơn bạn đã trả lời,

Hôm qua do bạn chưa upload hết files nên mình nghĩ là 2 files SplitData.ipynb và DataScience_Text_Classification.ipynb chạy một lượt với nhau nên mình mới nghĩ là cần xuất ra file csv ^.^
Mình góp ý chút là lần sao các bạn nên viết README rõ ràng hơn nha, để người đọc không bị nhầm lẫn
Một vấn đề nữa mình muốn hỏi là theo như mình đọc documents thì tham số n_jobs của RandomForest và KNN là số lượng process xử lý song song. Theo như mình hiểu thì khi tăng n_jobs lên chỉ tính toán nhanh hơn thôi mà, sao bạn lại thử nó? trong khi mình thấy RandomForest và KNN vẫn còn nhiều siêu tham số khác như n_estimators, n_neighbors,...

TrinhThiToUyen commented 4 years ago

Mình trong lúc viết READ.ME còn hơi bấn loạn tí =)) nên nó ko được rõ ràng cho lắm. mình sẽ chỉnh sửa để cho dễ hiểu hơn.
À, mà chính xác thì bạn chỉ cần dùng file CrawlData_New.ipynb để crawl dữ liệu lưu vào file data.txt Dùng file ProcessData_Model.ipynb để xử lí bài toán nha. Còn mấy file khác thì nhóm mình đang thảo luận xem nên bỏ bớt hay ko. Nói chung phần chính là 2 file đó.
Như bạn nói thì mình thử n_jobs là chỉ để ảnh hưởng của số lượng luồng chạy song song tới việc dự đoán của model thôi :)). Như mình thay đổi trên RandomForest với n_jobs = 6,7,8,9 thì độ chính xác càng giảm. Kết quả đó làm nhóm mình thấy 1 phần ảnh hưởng của n_jobs tới model mà nhóm đã chọn :)) Cảm ơn câu hỏi của bạn nhé.

TrinhThiToUyen / FinalProjectDataScience

[Team 2] Thắc mắc và góp ý #3