File data.txt(trong link drive) gồm 138990 bài báo thuộc 5 chủ đề(thời sự, thế giới, giáo dục, khoa học, pháp luật) được lấy trên trang vnxpress: https://vnexpress.net/
Dùng file SplitData.ipynb để chia file data.txt thành 3 file train.csv, val.csv, test.csv với tỉ lệ train:val:test = 6:2:2