Evaluating Task-based Effectiveness of MLLMs on Charts

Evaluating Task-based Effectiveness of MLLMs on Charts Datasets

아직 Preprint 논문이지만, 차트라는 도메인을 어떻게 평가하고 있는 지 잘 정리하고 있는 것 같아서 리뷰 남깁니다.

요약

이 논문은 MLLM이 차트의 데이터 분석 작업에 얼마나 효과적인지를 평가함
이를 위해 89,388개의 quartets(차트, 작업, 질문, 답변)로 구성된 대규모 데이터셋인 ChartInsights를 제작하고, 18개의 MLLMs(12개의 오픈소스 모델과 6개의 폐쇄소스 모델)을 평가
GPT-4V는 평균 정확도 56.13%로 가장 높은 성능을 보였고, 새로운 텍스트 프롬프트 전략인 Chain-of-Charts와 visual prompt 전략을 도입하여 모델의 성능을 크게 향상

제안한 기법의 종합적인 성능 향상 정도

Chain-of-Charts 의 경우 평균적으로 좋은 결과를 가져옴
Visual Prompts 의 경우, Reasoning/Anomly 에 대해 평균 결과를 끌어 올리는 결과를 보여 주었지만, Filter/Retrieve Value 에서는 오히려 성능이 저하됨

Chain-of-Charts

일반적인 CoT 와 별 차이는 없지만, 차트에 맞춰서 적용한 것이 특징

구현 방법

1.  질문-답변 쌍 생성:
•   차트의 특정 정보를 추출하기 위해 연속적인 질문과 해당 질문에 대한 답변을 생성합니다.
•   예를 들어, 차트의 유형을 묻는 질문(q1)과 그에 대한 답변(a1), 범례에 대한 질문(q2)과 답변(a2), 데이터 레이블에 대한 질문(q3)과 답변(a3)을 생성합니다.
2.  단계별 안내:
•   모델은 첫 번째 질문에 답변(q1, a1)하고, 이어서 두 번째 질문(q2, a2), 세 번째 질문(q3, a3) 등으로 진행합니다.
•   이 방식은 모델이 차트의 각 부분을 체계적으로 분석하고, 각 단계에서 얻은 정보를 기반으로 다음 질문에 답변할 수 있도록 돕습니다.
3.  질문-답변 시퀀스 예시:
•   q1: 이 차트의 유형은 무엇인가요?
•   a1: 원형 차트입니다.
•   q2: 이 원형 차트의 범례는 무엇인가요?
•   a2: Brentwood, Broxbourne, Chiltern 등입니다.
•   q3: 각 범례의 데이터 레이블은 무엇인가요?
•   a3: - Brentwood: 24.46%, - Broxbourne: 10.07% 등입니다.
•   최종 질문: 상위 세 가지 카테고리는 무엇인가요?
•   최종 답변: Three Rivers, Brentwood, Chiltern입니다.

효과 및 성능 향상

•   성능 향상: Chain-of-Charts 전략을 사용하면 기본 텍스트 프롬프트를 사용하는 것보다 모델의 성능이 크게 향상됩니다. 이 논문에서는 이 전략을 사용하여 정확도를 24.36% 향상시켜 최종 정확도가 80.49%에 도달했습니다.
•   시각적 프롬프트와의 결합: Chain-of-Charts 전략에 시각적 프롬프트 전략을 추가하면 정확도가 83.83%로 더욱 향상됩니다. 시각적 프롬프트는 모델이 질문과 관련된 시각적 요소에 주의를 기울이도록 돕습니다.

Visual Prompts

차트에 몇 가지 타입의 시각적 요소를 집어넣으면서 이에 대한 분석을 높혀주는 작용을 함

구현 방법

1.  그래픽 오버레이:
•   차트의 특정 부분을 강조하기 위해 추가된 그래픽 요소입니다.
•   이러한 오버레이는 모델이 중요한 데이터 요소를 쉽게 식별하고 분석할 수 있도록 도와줍니다.
2.  세 가지 주요 유형의 시각적 프롬프트:
•   손글씨(Hand Writing):
•   차트의 중요한 부분을 손글씨로 직접 표시합니다.
•   예를 들어, 비교해야 할 두 데이터 포인트를 원으로 둘러싸거나 값을 표시하는 방식입니다.
•   규칙적 모양(Regular Shape):
•   원, 사각형 등의 규칙적인 도형을 사용하여 차트의 요소를 표시합니다.
•   예를 들어, 순서 작업에서는 크기가 다른 세 개의 원을 사용하여 세 가지 값을 표시할 수 있습니다.
•   특수 디자인(Special Design):
•   특정 저수준 작업에 맞춘 시각적 큐를 디자인합니다.
•   예를 들어, 추세를 나타내기 위해 화살표를 사용하거나 상관 작업에서는 상관관계를 표시하는 선을 추가합니다.

효과 및 성능 향상

1.  성능 개선:
•   시각적 프롬프트는 모델이 중요한 시각적 요소를 더 잘 인식하고 분석할 수 있도록 돕습니다.
•   실험 결과, 시각적 프롬프트를 사용한 경우 GPT-4V의 성능이 전반적으로 향상되었습니다.
2.  저수준 작업에 대한 영향:
•   추론(Reasoning) 및 이상 감지(Anomaly Detection) 작업에서 시각적 프롬프트는 큰 효과를 발휘했습니다.
•   이 작업들은 모델이 관련 데이터를 정확하게 캡처하여 분석하고 추론하는 데 도움을 줍니다.
•   상관(Correlation) 및 순서(Order) 작업에서는 시각적 프롬프트의 이점이 덜 두드러졌습니다.
•   이러한 작업들은 여러 요소 간의 복잡한 관계를 식별해야 하므로, 다수의 새로운 시각적 요소가 추가되면 혼란을 초래할 수 있습니다.

paperswithlove / papers-we-read

Evaluating Task-based Effectiveness of MLLMs on Charts #30

요약

제안한 기법의 종합적인 성능 향상 정도

Chain-of-Charts

Visual Prompts