Open vietph34 opened 4 years ago
Chào bạn, mình cảm ơn về câu hỏi của bạn.
Nhóm mình dự định sẽ thực hiện một số bước tiền xử lý đơn giản như đối với các bài toán trong xử lý ngôn ngữ như loại bỏ các ký tự đặc biệt (\n, *, $, @, #, ...), thay thế các đại từ hay các động từ tobe,... Tùy vào mô hình bọn mình dùng thì có thể cần có nhiều hay ít số bước tiền xử lý.
Do dữ liệu từ BBC news là không hợp lệ nên nhóm mình đã chọn phương án lấy dữ liệu từ một trang khác và đã cân bằng về số lượng các thể loại. Với trường hợp dữ liệu cũ của nhóm mình, mỗi thể loại có từ 400-1000 bài. Vì mục đích ban đầu mình muốn finetune với bộ dữ liệu này nên mình cảm thấy nó cũng không mất cân bằng lắm.
Tùy vào model bọn mình dùng thì đặc trưng sẽ được chọn hoặc không cần thiết. Bây giờ bọn mình vẫn chưa tiến hành thực hiện nên chưa thể trả lời được. Nếu bạn có góp ý về các đặc trưng có thể lựa chọn thì mình xin cảm ơn.
Cheers.
Chào các bạn, Sau khi xem qua đề tài của các bạn, mình có một số câu hỏi: 1/ Với dữ liệu mà các bạn đã lấy được thì khi đưa vào mô hình, mình có cần phải tiền xử lý gì nữa không? 2/ Mình nhận thấy là dữ liệu của các bạn chưa được cân bằng(về mặt tỉ lệ giữa các lớp), vậy thì nhóm mình giải quyết vấn đề này như thế nào? 3/ Khi đưa vào huấn luyện thì các bạn sẽ lựa chọn đặc trưng như thế nào?