SagiK-Repository / AI_Deep_Learn

0 stars 0 forks source link

[논문] Fusion of Optical and Radar Data by Aggregation into a Single Feature Space for LULC Classification #3

Closed SAgiKPJH closed 2 weeks ago

SAgiKPJH commented 3 weeks ago

광학 및 레이더 데이터 융합을 통한 단일 특징 공간으로의 통합 및 LULC 분류

초록

토지 이용 및 토지 피복 분류(LULC)는 전 세계 생태 및 사회경제 모델의 근본적인 입력 요소로, 주로 광학 기술을 사용하는 우주 기반 플랫폼에서 대량의 데이터를 생성합니다. 그러나 이러한 데이터는 대기 조건에 영향을 받을 수 있습니다. 콜롬비아는 지리적 위치로 인해 높은 구름 덮개 비율을 가지고 있어 LULC 변화를 매핑하는 데 어려움이 있습니다. 이와 같은 프로세스에 영향을 미치는 정보 격차에도 불구하고 좋은 결과를 허용하는 알고리즘과 함께 광학 및 레이더 이미지를 통합하는 연구가 등장했습니다. 따라서 이 연구에서는 다중 스펙트럼 및 레이더 이미지를 사용하여 토지 이용 및 토지 피복을 분류하기 위해 세 가지 지도 학습 접근법, 서포트 벡터 머신, 랜덤 포레스트 및 XGBoost를 비교하고, 데이터 융합을 위한 네 가지 시나리오(광학, 광학 + SAR, 광학 + SAR 상승, 광학 + SAR 하강)를 고려합니다. 랜덤 포레스트 모델을 사용한 결과, 광학 + 상승 SAR 데이터가 가장 높은 정확도(76.02%)를 보였으며, 그 다음으로 광학 + 하강 SAR 데이터(75.97%), 광학 데이터(75.83%) 순으로 약간의 차이를 보였습니다. 향후 연구에서는 LULC 표현 및 분류를 개선하기 위해 두 데이터 세트에서 특징 추출을 탐구하는 것이 큰 관심사입니다.

키워드

토지 이용 토지 피복 · 분류 · 기계 학습 · 원격 감지 · 다중 스펙트럼 이미지 · 데이터 융합

1. 서론

세계의 천연 자원은 인간의 생존 욕구(식량, 건강, 경제, 여가 등)를 충족시키기 위해 과도하게 착취되고 있습니다[1]. 그러나 이러한 자원의 낭비와 과도한 착취는 매년 지구에 심각한 결과를 초래합니다. 이러한 영향을 미치는 인간 활동으로는 농업 경계 확장, 축산, 인프라 개발, 광업 등이 있으며, 사회적, 정치적, 경제적 변화와 관련된 간접적인 원인들도 포함됩니다[2]. 따라서 천연 자원의 관리와 발전에 대한 관심이 증가하여 토지 이용, 토지 피복 및 그 변화에 대한 정보와 지식을 생성하는 것이 과학계에서 큰 필요로 대두되었습니다[3].
매년 다양한 시스템에서 대량의 원격 감지 데이터가 생성되며, 이는 토지 이용 및 토지 피복과 관련된 활동을 모니터링하기 위해 사용되는 많은 지구 관측 위성들과도 관련이 있습니다[4]. 이러한 원격 감지 데이터의 증가된 가용성은 광학 및 레이더 데이터의 융합에 대한 빠른 발전과 관심을 이끌어냈습니다. 광학 센서는 수동적이며, 물체에서 반사된 태양 전자기파를 수신하여 공간적 및 스펙트럴 정보를 얻는 반면, 합성 개구 레이더(SAR)는 능동적이며 날씨 조건이나 일조량에 영향을 받지 않습니다[4,5]. 이 둘을 결합하면 각각의 결점을 보완하고 최상의 데이터를 얻을 수 있습니다[6]. 그러나 이러한 데이터 융합은 아직 충분한 주목을 받지 못했습니다.
LULC 처리 및 분류를 위해 여러 알고리즘이 연구되었습니다. 그 중에서도 기계 학습(ML) 기술은 가장 중요한 기술 중 하나로 꼽힙니다[7]. 이 기술은 데이터로부터 지식을 추출하는 것을 목표로 하며, 주요 목표는 더 안전하고 신뢰할 수 있는 분류를 얻기 위해 패턴을 식별할 수 있는 모델을 찾는 것입니다[3]. 분류 응용 프로그램에서 지도 학습 방법에 대한 연구에서는 서포트 벡터 머신(SVM), 랜덤 포레스트(RF), 익스트림 그래디언트 부스팅(XGBoost)이 가장 인기 있는 것으로 보고됩니다[8]. 이는 일반적으로 다른 전통적인 분류기보다 더 나은 성능을 제공하기 때문입니다[9]. 또한, 기계 학습이 대규모의 과거 및 현재 데이터 세트를 처리할 수 있는 잠재력을 강조하는 것이 중요합니다. 이는 LULC 분석 및 분류에 이 알고리즘을 적용하는 데 필수적입니다[10].
따라서 이 연구의 목적은 높은 구름 비율을 가진 지역에서 광학 및 레이더 데이터의 융합을 통해 LULC 분류 성능을 향상시킬 가능성을 확인하는 것입니다. 이 융합을 통해 콜롬비아와 같이 현재 이와 관련된 연구가 미비한 국가에서 대기 조건으로 인한 광학 센서 데이터 획득의 결함을 완화할 수 있기를 기대합니다. 초기에는 매우 일반적인 지역을 탐색할 수 있도록 CORINE Land Cover (CLC) Level 1에서 지정된 5개 클래스 중 4개 클래스(인공화된 지역(도시 지역), 농업 지역(작물), 숲 및 준자연 지역(목초지), 수면(수로))를 사용하는 것이 제안됩니다.

SAgiKPJH commented 3 weeks ago

2 방법론

이 연구는 레이더 및 광학 데이터를 통한 토지 피복 분류 및 분석을 조사하기 위해 그림 1에 나타난 방법론의 주요 단계를 사용했습니다.

2.1 연구 지역

이 연구에 선택된 연구 지역은 콜롬비아 안티오키아에 위치하며, 약 190,000 헥타르의 다양한 지형을 포함하고 있습니다. 이 지역은 정확히 과르네, 과타페, 라 세하, 그리고 코코르나 시정촌 사이에 위치한 오리엔트 안티오퀴노(sub-region)로 잘 알려져 있습니다.

2.2 데이터베이스

데이터베이스는 2019년 8월 기준으로 Sentinel 2 센서의 광학 이미지와 Sentinel 1 센서의 SAR 이미지를 포함합니다. Sentinel 2 데이터는 20m 이하의 공간 해상도를 가진 밴드를 사용했으며, 대기 반사 레벨이 보정된 레벨 2A의 이미지를 사용했습니다. Sentinel 1 데이터는 수직 송신 및 수신(VV)과 수직 송신 및 수평 수신(VH) 편극에서 상승 및 하강 궤도의 Ground Range Detected (GRD) 컬렉션에서 수집되었습니다. 두 데이터 세트 모두 Google Earth Engine 도구를 사용하여 리샘플링을 수행하였으며, Sentinel 2 밴드는 모두 20m로, SAR 데이터도 동일하게 조정되었습니다.
표 1은 이 연구에서 사용된 위성 이미지와 센서를 상세히 설명합니다.

CORINE Land Cover

프로세스를 검증하기 위한 참고 데이터로는 현재 콜롬비아에서 수자원 기상 및 환경 연구소(IDEAM)에 의해 주도되는 CORINE Land Cover (CLC) 방법론 지도가 고려됩니다. 이 지도는 전문가 지도 제작자의 시각적 해석을 통해 얻은 토지 피복 분류를 포함하며, 레벨 1에서 레벨 6까지 상세히 설명됩니다. 이 연구에서는 레벨 1에서 정의된 5개 클래스 중 4개 클래스(인공화된 지역(ArT), 농업 지역(AgT), 숲 및 준자연 지역(FSA), 습지 및 수면(WS))를 사용합니다(그림 2 참조).

2.3 전처리

데이터 준비 과정은 일반적으로 각 이미지의 데이터 세트를 구성하고, 각 센서의 밴드에 따라 동일한 길이와 순서로 행렬을 정리하는 것을 포함합니다. 또한, 모든 데이터는 Min-MaxScaler 함수를 사용하여 정규화되었고, train test split 함수를 사용하여 70%는 훈련 데이터, 30%는 테스트 데이터로 나누었습니다.
데이터 융합: 각 이미지의 픽셀 값은 데이터 융합을 위해 사용되며, 네 가지 시나리오(광학, 광학 + SAR, 광학 + 상승 SAR, 광학 + 하강 SAR)를 고려합니다. 융합 구성 세부 사항은 표 2에서 확인할 수 있습니다.
훈련 데이터 세트: 훈련 데이터 세트의 정보는 QGIS 지리 정보 시스템 소프트웨어를 사용하여 처음 구조화됩니다. 특정 지역에서 각 관심 클래스를 적절히 식별할 수 있도록 이미지의 여러 슬라이스를 추출합니다(그림 3 참조).

2.4 분류

모델: 비교를 위해 모두 분류 모드로 설정된 세 가지 지도 학습 접근 방식의 모델이 사용되었습니다. 첫 번째 모델은 SVM으로, 데이터의 과적합을 자동으로 방지하면서 예측 정확도를 극대화하는 도구로 작동합니다. SVM은 데이터 포인트를 서로 다른 클래스로 분류하기 위한 결정 경계를 정의하는 하이퍼플레인을 찾고자 합니다[11,12]. 또한 연속 및 범주형 변수를 지원하며, 선형 및 비선형 샘플에도 적용됩니다. 마진 또는 하이퍼플레인을 제약하는 훈련 샘플은 서포트 벡터입니다[7].
두 번째 모델은 RF로, 동일하게 분포된 독립적인 무작위 벡터를 가진 트리 구조 분류기의 집합으로 구성됩니다. 각 트리는 입력의 가장 인기 있는 클래스에 대해 단일 투표를 하여 더 정확하고 안정적인 예측을 가능하게 합니다[6,7].
마지막으로, XGBoost는 동시 트리 부스팅 접근 방식을 통해 대규모 문제 해결에서 더 높은 정확도를 제공합니다[8]. 이 분류기는 각 반복 후 새로운 분류 멤버십을 예측하는 그래디언트 부스팅을 기반으로 하며, 이전 분류기의 오류를 지속적으로 개선하는 약한 트리에서 예측을 수행하여 강력한 분류기를 만듭니다[13].

2.5 성능 평가.

혼동 행렬(CM): 감독 학습에서 알고리즘의 성능을 시각화하는 도구로, 분류 시스템이 수행한 실제 및 예측 분류에 대한 정보를 포함합니다(그림 4 참조). 이러한 시스템의 성능은 일반적으로 행렬 데이터 자체를 사용하여 평가됩니다[14].
정확도: 이는 분류 모델을 평가하는 데 널리 사용되는 메트릭으로, 샘플이 정확하게 분류될 확률을 설정합니다. 이는 진양성의 합과 진음성을 더한 값을 분석된 총 샘플 수로 나눈 값입니다[6].

SAgiKPJH commented 2 weeks ago

3 결과 및 논의

데이터베이스에서 얻어진 결과는 표 3에 각 클래스에 대한 훈련 및 검증 테스트의 레코드 수와 함께 제시되어 있습니다. 각 4개의 데이터 세트에서 레코드 수는 동일합니다.

광학 이미지, SAR, 그리고 두 데이터를 융합하여 랜덤 포레스트(Random Forest), 서포트 벡터 머신(Support Vector Machine), XGBoost 알고리즘을 사용하여 분류를 수행했습니다. 모델에 설정된 파라미터는 다음과 같습니다: SVM은 Radial Basis Function(‘rbf’) 커널을 사용하고, RF는 최대 트리 깊이를 2로 설정하며 Random State는 0으로, XGBoost는 다중 클래스를 위해 softmax 목표를 사용하고 Random State는 42로 설정했습니다.

가장 높은 정확도는 랜덤 포레스트 모델을 사용했으며, 특히 광학 데이터 + 상승 SAR 조합에서 76.02%를 기록했습니다. 그 뒤를 이어 광학 데이터 + 하강 SAR(75.97%)와 광학 데이터(75.83%)가 뒤따랐습니다. 표 4는 데이터 세트와 각 모델에 따른 정확도를 비교하여 보여줍니다. 전체 데이터 세트에서 광학 이미지 + SAR을 사용하는 분류는 놀랍게도 가장 정확도가 낮았고, 광학 이미지 세트와 매우 가까웠습니다. 그러나 궤도에 따른 데이터 차이를 고려했을 때, 광학 이미지 + 상승 SAR을 사용할 경우 정확도가 증가했습니다.

그림 5는 RF 모델을 사용하여 얻은 분류 맵을 보여줍니다. 이는 각각 광학, SAR 상승 및 하강 이미지를 사용하여 서로 다른 데이터 세트 접근법의 효과를 시각적으로 비교할 수 있게 합니다. 광학 데이터를 사용한 경우, 구름의 존재가 예측에 영향을 미치며, 이들은 인공화된 지역으로 분류됩니다. 하지만 이로 인해 생성된 그림자도 주로 수면으로 분류됩니다. 한편, 광학 및 SAR 데이터의 융합을 통해 구름 현상으로 인해 잘못 분류된 픽셀이 줄어들어 시각적으로 개선된 토지 피복 맵을 얻었습니다.

그림 6은 위에서 언급한 RF로 얻은 세 가지 최상의 결과에 대한 혼동 행렬을 제시합니다. 올바르게 분류된 샘플 수는 어두운 녹색 음영으로 대각선에 표시됩니다. 예를 들어, 2,537,175개의 광학 픽셀이 AgT로 올바르게 분류되었으며, 융합 데이터에서는 약 40,000 샘플로 증가합니다. 이 클래스는 모든 분류에서 가장 두드러진 것으로 확인되며, 이는 다른 클래스와 구별되는 특정 속성 때문일 가능성이 있습니다. 두 번째로 잘 예측된 클래스는 WS로, 이 클래스는 약 75.4%에 해당하는 112,395개의 올바르게 분류된 샘플을 가지고 있으며, 특히 광학 데이터에서 그렇습니다.

4 결론

본 연구는 LULC 분류를 위해 광학 및 SAR 이미지를 융합하고, 광학 이미지, SAR, 그리고 두 가지 조합으로 얻은 맵의 정확성을 평가했습니다. 광학 및 SAR 이미지를 사용하여 얻은 맵의 정확도는 광학 이미지만을 사용하여 얻은 것보다 우수하였으며, 이는 두 시스템의 세부 정보를 제공함으로써 서로 보완하여 더 나은 토지 피복 분류를 얻을 수 있음을 보여줍니다. 그러나 여전히 광학 데이터에서 구름의 존재로 인해 분류 오류가 증가하고 있어, 이러한 구름의 간섭을 줄이기 위한 데이터 특성에 대한 기술 연구의 발전이 필요합니다.

마지막으로, 본 연구는 LULC 분류를 위한 다중 센서 데이터 융합 기술과 감독 모델 최적화 분석의 연속성을 제공하는 데 사용할 수 있는 기준 결과를 제시합니다(표 5).