thanthienhai / DATN-Image-Captioning-THANTHIEN

Đồ án xây dựng ứng dụng tạo chú thích ảnh tự động bằng AI, kết hợp các mô hình để phân tích và mô tả nội dung ảnh, bên cạnh đó so sánh các thuật toán để chịn ra mô hình phù hợp. Ứng dụng giúp người dùng dễ dàng tổ chức và tìm kiếm ảnh qua các chú thích tự động.
0 stars 0 forks source link

Nghiên cứu về các thuật toán mô tả ảnh - Image Captioning #2

Open thanthienhai opened 2 weeks ago

thanthienhai commented 2 weeks ago

Issue: Nghiên cứu về các thuật toán mô tả ảnh - Image Captioning

Mô tả

Nghiên cứu các phương pháp và thuật toán tiên tiến trong Image Captioning nhằm xây dựng hệ thống tự động tạo chú thích cho ảnh. Công việc này tập trung vào các kỹ thuật trích xuất đặc trưng ảnh, xử lý ngôn ngữ tự nhiên, và áp dụng Attention để cải thiện chất lượng mô tả.

Mục tiêu

Tự động tạo chú thích cho ảnh dựa trên các đặc trưng nổi bật, tập trung vào những phần quan trọng của ảnh.

Kiến thức cần nghiên cứu

  1. CNN (Convolutional Neural Networks): Tìm hiểu vai trò của CNN trong việc trích xuất đặc trưng từ ảnh. Nghiên cứu cách các lớp tích chập phân tích và phát hiện các đặc trưng quan trọng giúp mô tả nội dung ảnh.

  2. Transformer Models: Nghiên cứu các mô hình Transformer như Vision Transformer (ViT) và sự kết hợp CNN + LSTM để xử lý dữ liệu ảnh và ngôn ngữ tự nhiên. Hiểu cách mà các mô hình này tích hợp đặc trưng ảnh với mô tả văn bản để tạo ra các chú thích chính xác.

  3. Attention Mechanisms: Tìm hiểu về cơ chế Attention, cách giúp mô hình tập trung vào các phần quan trọng của ảnh khi tạo chú thích, giúp cải thiện tính chính xác và phù hợp của mô tả.

  4. Datasets: Nghiên cứu và chuẩn bị các bộ dữ liệu phổ biến dùng cho Image Captioning, bao gồm:

    • MS COCO: Bộ dữ liệu lớn, phong phú, chứa ảnh và chú thích kèm theo.
    • Flickr8k và Flickr30k: Các bộ dữ liệu ảnh nhỏ hơn, nhưng cũng được sử dụng phổ biến trong việc huấn luyện và đánh giá mô hình chú thích ảnh.
  5. Transfer Learning: Tìm hiểu cách áp dụng các mô hình huấn luyện trước (pretrained models) như ResNet và EfficientNet để cải thiện hiệu suất mô hình, tận dụng khả năng trích xuất đặc trưng mạnh mẽ từ các mô hình này.

Công việc cần thực hiện

Yêu cầu

thanthienhai commented 5 days ago

Thêm thuật toán dưới đây vào nghiên cứu. Thuật toán kết hợp YOLO và BLIP-2 để thực hiện captioning. Link: https://github.com/SmithaUpadhyaya/fashion_image_caption