undertheseanlp / playground

Open Vietnamese NLP Experiments
2 stars 2 forks source link

Hỏi hướng dẫn train model mới #44

Open anhtuanvn opened 3 years ago

anhtuanvn commented 3 years ago

Chào bạn,

Mình quan tâm tới dự án của các bạn vì nó cho phép train 1 model mới. Tuy nhiên, mình chưa hiểu rõ cách tạo tập train.txt như thế nào để đưa vào huấn luyện model.

Mình nhờ bạn gửi giúp mình hướng dẫn sử dụng chi tiết hơn, đặc biệt về cách train 1 model mới (tạo tập train.txt).

Cảm ơn bạn nhiều!

Best regards

rain1024 commented 3 years ago

@anhtuanvn Hiện tại underthesea có cung cấp một số source code để bạn có thể huấn luyện mô hình mới như tách từ (undertheseanlp/word_tokenize), gán nhãn từ loại (undertheseanlp/pos_tag), ...

Bạn có thể tham khảo các project khác ở đây https://github.com/undertheseanlp

vukhanh1202 commented 3 years ago

@anhtuanvn Hiện tại underthesea có cung cấp một số source code để bạn có thể huấn luyện mô hình mới như tách từ (undertheseanlp/word_tokenize), gán nhãn từ loại (undertheseanlp/pos_tag), ...

Bạn có thể tham khảo các project khác ở đây https://github.com/undertheseanlp

Hi anh, em có tham khảo dự án underthesea và thấy rất hữu dụng. Hiện tại em có xem qua 2 dự án về tự train model của bên a là undertheseanlp/word_tokenize và undertheseanlp/pos_tag. Tuy nhiên có vẻ cả 2 đã bị tạm dừng, các file code bên trong đều có khá nhiều lỗi. Ví dụ word_tokenize, các file from util.crf import train, train_test ko còn trong thư mục dự án. Hi vọng các anh sẽ sửa để mng làm đc nhiều project cá nhân từ model của underthesea ạ :D

rain1024 commented 3 years ago

Cập nhật 10/11/2020: @anhtuanvn @vukhanh1202 Mình đang cố gắng thực hiện giải quyết issue này, các bạn theo dõi tại (⚗️-2) nhé.

Tuy nhiên, hiện tại underthesea đang sử dụng bộ dữ liệu VLSP2013-WTK và VLSP2013-POS (hai bộ dữ liệu này underthesea không có quyền chia sẻ) để huấn luyện mô hình tách từ và gán nhãn từ loại. Để thực sự giải quyết issue này, mình đang nghĩ sẽ chuẩn bị một bộ dữ liệu mở cho 2 task này (chất lượng không bằng bộ chuẩn từ VLSP)