Issue: Nghiên cứu về các thuật toán mô tả ảnh - Image Captioning

Mô tả

Nghiên cứu các phương pháp và thuật toán tiên tiến trong Image Captioning nhằm xây dựng hệ thống tự động tạo chú thích cho ảnh. Công việc này tập trung vào các kỹ thuật trích xuất đặc trưng ảnh, xử lý ngôn ngữ tự nhiên, và áp dụng Attention để cải thiện chất lượng mô tả.

Mục tiêu

Tự động tạo chú thích cho ảnh dựa trên các đặc trưng nổi bật, tập trung vào những phần quan trọng của ảnh.

Kiến thức cần nghiên cứu

CNN (Convolutional Neural Networks): Tìm hiểu vai trò của CNN trong việc trích xuất đặc trưng từ ảnh. Nghiên cứu cách các lớp tích chập phân tích và phát hiện các đặc trưng quan trọng giúp mô tả nội dung ảnh.
Transformer Models: Nghiên cứu các mô hình Transformer như Vision Transformer (ViT) và sự kết hợp CNN + LSTM để xử lý dữ liệu ảnh và ngôn ngữ tự nhiên. Hiểu cách mà các mô hình này tích hợp đặc trưng ảnh với mô tả văn bản để tạo ra các chú thích chính xác.
Attention Mechanisms: Tìm hiểu về cơ chế Attention, cách giúp mô hình tập trung vào các phần quan trọng của ảnh khi tạo chú thích, giúp cải thiện tính chính xác và phù hợp của mô tả.
Datasets: Nghiên cứu và chuẩn bị các bộ dữ liệu phổ biến dùng cho Image Captioning, bao gồm:
- MS COCO: Bộ dữ liệu lớn, phong phú, chứa ảnh và chú thích kèm theo.
- Flickr8k và Flickr30k: Các bộ dữ liệu ảnh nhỏ hơn, nhưng cũng được sử dụng phổ biến trong việc huấn luyện và đánh giá mô hình chú thích ảnh.
Transfer Learning: Tìm hiểu cách áp dụng các mô hình huấn luyện trước (pretrained models) như ResNet và EfficientNet để cải thiện hiệu suất mô hình, tận dụng khả năng trích xuất đặc trưng mạnh mẽ từ các mô hình này.

Công việc cần thực hiện

[ ] Nghiên cứu về từng thuật toán/mô hình và cách thức hoạt động của chúng trong bài toán Image Captioning.
[ ] Phân tích các code base liên quan để hiểu chi tiết cách tích hợp các mô hình CNN, Transformer, và Attention trong pipeline mô tả ảnh.
[ ] Chuẩn bị và làm quen với các bộ dữ liệu MS COCO, Flickr8k, và Flickr30k.
[ ] Áp dụng Transfer Learning với các mô hình huấn luyện trước để cải thiện độ chính xác và hiệu suất của hệ thống.
[ ] Tổng hợp tài liệu nghiên cứu, ghi chép các phương pháp và ví dụ code minh họa.
[ ] So sánh các thuật toán với các phương pháp phổ biến

Yêu cầu

Hiểu rõ và nắm vững các bước cơ bản trong việc xây dựng mô hình Image Captioning.
Đưa ra nhận xét và đánh giá về ưu/nhược điểm của từng kỹ thuật khi áp dụng trong bài toán mô tả ảnh.
Cung cấp các ví dụ code minh họa cho từng phần, thuận tiện cho việc tham khảo và triển khai.

thanthienhai / DATN-Image-Captioning-THANTHIEN