SagiK-Repository / AI_Deep_Learn

0 stars 0 forks source link

[논문] Land Cover Classification Using Remote Sensing and Supervised Convolutional Neural Networks #2

Closed SAgiKPJH closed 1 month ago

SAgiKPJH commented 1 month ago

원격 탐사 및 감독형 합성곱 신경망을 이용한 토지 피복 분류

초록

빠른 인구 성장과 다양한 산업 부문의 발전은 토지 이용 및 토지 피복(LULC)의 변화 속도를 가속화하고 있습니다. LULC 변화의 정량적 평가는 이러한 변화를 이해하고 관리하는 데 기본적인 역할을 합니다. 따라서 LULC 맵핑을 위한 다양한 알고리즘의 정확성을 검토하는 것이 필요합니다. 본 연구에서는 PSPNet, U-Net, U-Net++의 세 가지 딥 러닝 아키텍처를 ResNet-18, ResNet-34, ResNet-50, ResNext50 32x4d 등 네 가지 다른 백본과 함께 비교했습니다. 또한, 동일한 장면을 사용하되 1) 단일 날짜, 2) 시계열, 3) 데이터 증강을 적용하여 모델 성능을 비교했습니다. 이를 위해 안티오키아-콜롬비아에서 촬영한 Sentinel 2 이미지를 사용하고, Corine Land Cover의 네 가지 주요 카테고리를 기준 진실로 삼았습니다. 평균 교차 점유율(mIoU) 지표와 픽셀 정확도를 평가 메트릭으로 사용했습니다. 모든 모델은 데이터 증강을 통해 성능이 향상되었습니다. 가장 성능이 우수한 모델은 ResNet-50 인코더를 사용하는 U-Net과 Resnext50-32x4d를 사용하는 U-Net으로, 각각 픽셀 정확도가 88.6%와 89.2%, mIoU는 74.6%와 74.8%를 기록했습니다. 두 모델의 계산 시간은 유사하게 244.07분과 248.06분이 소요되었습니다. PSPNet은 가장 낮은 성능을 보였으며, 픽셀 정확도는 83.2%에서 84.1% 사이, mIoU는 63.3%에서 64.6% 사이였습니다. 요약하자면, 우리의 결과는 의미론적 분할 모델이 광학 이미지의 토지 커버 분류에 적합하며, 새로운 기술과 센서 통합 평가를 위한 기준 정확도를 제공함을 보여줍니다.

키워드

1. 서론 및 문헌 검토

인간과 환경은 밀접한 상호작용을 유지하고 있으며, 따라서 다양한 행동, 자연 현상 및 생태계 변화가 어떻게 관련되는지를 이해하는 것은 자연 자원의 효율적인 관리와 사용을 위해 필수적입니다 [1]. 토지 피복은 표면의 물리적 특성을 나타내고, 토지 이용은 인간 활동에 의해 발생하는 변화를 의미합니다 [1]. 그러나 토지 이용(LU)과 토지 피복(LC)은 상호 의존적이며, 즉 이용이 피복에 영향을 미치고, 피복의 변화가 이용에 변화를 줍니다 [2]. LULC 변화에 대한 연구는 자연 재해 모니터링 [3], 환경 취약성 평가 [4], 토지 이용 계획 [5], 기후 변화 연구 [6] 등과 같은 다양한 실제 응용의 잠재력 때문에 필수적이 되었습니다. 또한, LULC의 정량적이고 동적인 평가는 경관 변화 이해 [7] 및 다양한 규모에서 생태계 변화의 영향을 모델링하는 가장 효과적인 수단입니다 [8].
토지 이용 및 토지 피복 분류에 사용되는 대부분의 정보는 원격 탐사, 특히 수동 센서를 통해 수집됩니다 [9]. 전통적인 기계 학습 기법은 LULC 맵을 생성하는데, 이는 상당한 재정적 자원, 인력 및 시간이 필요합니다 [9]. 기계 학습 모델은 원격 탐사 분류에서 중요한 역할을 해왔습니다. 랜덤 포레스트(Random Forest, RF), 서포트 벡터 머신(Support Vector Machine, SVM), K-최근접 이웃(K-Nearest Neighbor, KNN)과 같은 알고리즘은 LULC 분류에서 우수한 결과를 보여주었습니다 [10]. 그러나 이러한 방법은 성능의 한계에 도달했으며, 우수한 결과를 얻기 위해 많은 외생 지표를 필요로 합니다 [11].
컴퓨팅의 빠른 발전은 LULC 분류를 위한 새로운 기법의 개발을 가능하게 하였으며, 특히 딥 러닝 기법(DL)이 주목받고 있습니다 [11]. 이러한 알고리즘은 이미지 분류 및 객체 분할에 적용되어 원격 탐사 응용에서 효과성을 입증하였습니다 [12]. 딥 러닝은 더 높은 수준의 추상적 특징을 학습할 수 있어 데이터에 존재하는 관련 없는 변동성을 줄이고 구별 능력을 강화할 수 있습니다 [13]. 인코더/디코더 네트워크에 대한 연구는 의미론적 분할 문제나 장면 분류에서 우수한 성능을 보고하고 있습니다 [9]. 문헌을 고려할 때, 딥 러닝을 통한 향상된 분할 기능은 지표 피복 특징의 다양성과 복잡성을 정확하게 감지하고 추출할 수 있는 잠재력을 가지고 있습니다 [9]. 따라서 딥 신경망의 프레임워크는 원격 탐사 [12]와 같은 많은 응용에서 최첨단 기술을 개선하였습니다.
우리는 인코더/디코더 패러다임을 피처 추출기로 사용하기 위해 전이 학습 기반의 딥 러닝 접근 방식을 사용하였습니다. 또한, 다양한 데이터베이스 증강을 통해 여러 토지 피복 분류 모델의 성능 분석을 종합적으로 수행하였습니다.

2. 재료 및 방법

그림 1은 본 연구의 방법론을 제시합니다. 처음에, 안티오키아(콜롬비아)의 그리드 섹션에서 촬영된 광학 이미지를 기반으로 훈련 및 테스트 샘플을 생성했습니다. 우리는 의미론적 분할 모델인 PSPNet, U-Net, U-Net++를 네 가지 사전 훈련된 백본(ResNet-18, ResNet-34, ResNet-50, ResNext50 32x4)과 결합하여 적용했습니다. 이 백본은 ImageNet의 RGB 이미지에서 훈련되었습니다. 이를 위해 Sentinel 2(S2) 이미징과 네 가지 주요 클래스로 구성된 토지 피복 데이터셋이 사용되었습니다. 이후 여러 감독형 딥 러닝 알고리즘을 사용하여 연구 지역의 이미지를 분류했습니다. 마지막으로, 가장 우수한 모델의 결과를 도출하고 논의했습니다.

2.1 연구 지역

연구 지역은 콜롬비아 안티오키아의 동부 하위 지역에 위치하며, 메데진, 구아타페, 라 우니온 시를 포함합니다. 이 지역의 면적은 약 189,900 헥타르이며, 해발 고도는 377m에서 3343m 사이입니다. 이 지역은 복잡한 LC 클래스의 모자이크를 나타내며(그림 2), 보라색은 인공 표면, 노란색은 수역, 파란색은 농업 지역, 녹색은 자연 식생이 있는 산림 지역을 나타냅니다. 연구 지역은 주로 온실 및 농지의 건설로 인해 자연 지역에서 농업 또는 인공 지역으로의 전환에 취약한 것으로 선택되었습니다.

2.2 데이터 수집 및 전처리

본 연구에서는 Google Earth Engine(GEE)에서 다운로드한 세 개의 Sentinel 2 이미지를 사용했습니다. 이 이미지는 2019년 1월, 7월, 8월에 촬영된 L2A(정사 보정 대기 보정 표면 반사율) 이미지입니다. 연구에 사용된 S2 위성 이미지의 스펙트럼 밴드는 표 1에 나타나 있습니다. 모든 밴드는 GEE를 사용하여 10m로 재샘플링되었습니다. GEE는 자동으로 스케일링을 처리하여 모든 밴드가 완벽하게 정렬되도록 합니다.
레이블은 Instituto de Hidrología, Meteorología y Estudios Ambientales(IDEAM)에서 개발한 Corine Land Cover 맵(2018)에서 얻었습니다. Corine Land Cover는 콜롬비아 전역에 대한 방대한 레이블 데이터셋을 제공합니다. 연구 지역에서는 Corine Land Cover의 첫 번째 수준을 기반으로 네 가지 LULC 클래스가 식별되었습니다: 인공 표면(AS)은 1,875,067 픽셀로, 인간이 만든 구조물과 인프라가 특징인 지역을 나타냅니다. 가장 큰 토지 피복 클래스는 농업 지역(AA)으로, 11,794,080 픽셀을 포함하며 농업 및 재배에 전념하는 광범위한 지역을 나타냅니다. 자연 식생이 있는 산림 지역(FANV)은 4,967,302 픽셀로, 해당 지역의 중요한 산림 지역을 나타내며, 수역(WF)은 597,712 픽셀로, 이 지역 내의 수체를 나타냅니다. Corine Land Cover 벡터 레이블은 10m 해상도(S2 해상도)로 래스터로 변환되었으며, S2 이미지와 함께 연구 지역의 크기로 크롭되었습니다. 이 과정은 Python 소프트웨어를 사용하여 수행되었습니다.
마스크와 S2 래스터는 256 × 256 픽셀(2.56 km × 2.56 km) 크기의 패치로 나누어졌습니다. 우리의 데이터셋 X는 이러한 패치로 구성되며, 각 패치는 각 픽셀에 대한 특징으로 S2 이미지 밴드를 포함하고 있습니다. 데이터셋 Y는 해당 레이블로 구성됩니다. 데이터 증강 기법을 사용하여 모델의 성능 향상을 위해 수직 및 수평 뒤집기를 적용했습니다. 표 2는 원본 및 다양한 이미지 증강 데이터셋의 패치 수를 보여줍니다.

2.3 의미론적 분할 방법

본 연구에서는 토지 피복의 의미론적 분할에 널리 사용되는 U-Net, U-Net++ 및 PSPNet을 기본 아키텍처로 선택했습니다. 이 모델들은 의미론적 분할을 위한 다양한 접근 방식을 평가하기 위해 선택되었습니다. 다음에서는 각 딥 러닝 모델의 구체적인 아키텍처를 설명합니다.

PSPNet

피라미드 장면 파싱 네트워크(PSPNet)는 사전 훈련된 분류 아키텍처를 사용하여 특징 맵을 추출합니다 [14]. 이 네트워크의 주요 모듈은 4단계 피라미드 풀링입니다. 이 모듈은 전체, 반, 작은 부분을 커버하여 더 대표적인 정보 레벨을 수집할 수 있습니다. 피라미드 풀링은 조잡한 특징(첫 번째 레벨)과 세밀한 특징(네 번째 레벨)을 수집합니다. PSPNet은 피라미드 풀링 출력을 원래의 특징 맵과 연결(concatenate)합니다 [14]. 마지막으로, 최종 예측 맵을 생성하기 위해 컨볼루션 레이어가 사용됩니다(그림 3(c)).

U-Net

U-Net 모델 아키텍처의 세부 사항은 그림 3(a)에 나타나 있습니다. U-Net 모델은 인코더(왼쪽)와 디코더(오른쪽)라는 두 개의 주요 경로로 알려져 있습니다. U-Net은 각 단계에서 인코더 특징 맵과 디코더 특징 맵을 연결합니다 [15]. 수축 경로는 컨볼루션 네트워크의 전형적인 아키텍처를 따릅니다. 이는 두 개의 3×3 컨볼루션을 반복적으로 적용하며, 각 컨볼루션 뒤에는 ReLU 활성화 함수와 2×2 맥스 풀링 작업이 포함됩니다. 디코더 경로에서는 각 단계에 2×2 업컨볼루션 레이어와 해당 인코더 경로의 특징 맵과의 연결 레이어가 포함되며, 두 개의 3×3 컨볼루션 레이어에 ReLU 활성화 함수가 적용되고, 마지막으로 1×1 컨볼루션 레이어가 포함됩니다 [16].

U-Net++

U-Net++는 의미론적 이미지 분할에 사용되는 U-Net 아키텍처를 크게 향상시킵니다. 이 계층 구조는 네트워크 레벨 간의 더 긴 스킵 연결을 통합하여 다중 스케일 특징을 포착할 수 있게 합니다. 그림 3(b)에서 녹색과 파란색은 스킵 경로 내에 통합된 밀집 컨볼루션 블록을 나타냅니다. 또한 빨간색은 깊은 감독(deep supervision)의 통합을 의미합니다 [17]. 딥 러닝 알고리즘은 훈련을 위해 대량의 데이터에 접근해야 합니다 [18]. 그러나 빈번하고 밀집한 구름 덮개는 토지 피복 매핑 작업에서 데이터 희소성을 초래하는 중요한 도전 과제가 됩니다. 이 한계를 극복하기 위해, ImageNet에서 사전 훈련된 감독형 모델(전이 학습)을 사용하여 특정 기본 매개변수를 획득했습니다. 모든 모델은 ResNet-18, ResNet-34, ResNet-50 및 Resnext50-32x4d를 포함한 네 가지 다른 백본과 결합되었습니다. 우리는 역전파 최적화를 위해 Jaccard Loss 함수를 사용하기로 결정했으며, 학습률은 0.001, 배치 크기는 32로 설정했습니다. PyTorch 기반의 이미지 분할을 위한 신경망 라이브러리를 사용했습니다 [19].

2.4 성능 비교 딥 러닝 모델

모델 분류 결과를 비교하기 위해 다음의 메트릭을 사용합니다: 1) 평균 픽셀별 교차 비율(mIoU)과 2) 픽셀 정확도. 이 두 메트릭은 최신 기술에서 가장 널리 사용되는 지표 중 하나입니다 [20].
mIoU는 다음과 같이 정의됩니다.
정확도는 다음과 같이 정의됩니다.
여기서 (Tp)는 진양성(true positives), (Tn)은 진음성(true negatives), (Fp)는 위양성(false positives), (Fn)은 위음성(false negatives)을 나타내며, (m)은 테스트 이미지의 수에 해당합니다.

3 결과

3.1 실험 결과

실험 결과는 표 3에 제시되어 있습니다. 훈련 시간은 초 단위로 계산되며, 파란색은 가장 높은 성능을, 빨간색은 가장 낮은 성능을 나타냅니다. 모델 훈련에는 Kaggle의 NVIDIA TESLA P100 GPU를 사용했습니다. 시나리오 2와 3은 가장 우수한 성능을 보였고, 시나리오 1은 mIoU 수준에서 낮은 성능을 나타냈습니다.

가장 높은 mIoU와 픽셀 정확도 값을 달성한 시나리는 시나리오 3으로, ResNext50 32x4d 및 ResNet-50 인코더를 사용하는 U-Net 아키텍처를 사용했습니다. 이 시나리오의 픽셀 정확도는 각각 89.27%/88.60%였고, mIoU는 각각 74.81%/74.60%였습니다. 시나리오 2는 시나리오 3과 유사한 성능을 보였으나, ResNet-50 인코더를 사용하는 U-Net++ 아키텍처가 가장 높은 픽셀 정확도 값(87.5%)을 보여주었고, ResNext50 32x4d를 사용하는 U-Net++는 가장 높은 mIoU 값(72.1%)을 나타냈습니다. PSPNet 모델은 모든 인코더에서 일반적으로 열악한 성능을 보였으며, 가장 낙관적인 시나리오에서도 픽셀 정확도가 83.21%에서 84.13% 사이, mIoU는 63.30%에서 65.30% 사이였습니다.

표 3. 서로 다른 백본과 시나리오에 따른 DL 모델 간 비교.

3.2 예측 결과 비교

S2 이미지, 실제 정답, 및 각 시나리오에서 가장 우수한 모델의 예측 이미지는 그림 4에 표시되어 있습니다. 모든 분할 모델을 평가한 결과, 훈련이 완료된 후에는 모두 어느 정도 S2 이미지를 분류하고 분할할 수 있다는 결론을 내렸습니다. 그러나 도로와 같은 선형 인프라의 분류 및 분할 결과에 대한 세부적인 효과는 만족스럽지 않습니다.
그림 5는 혼동 행렬을 보여주며, 이는 각 분류된 픽셀의 성능을 나타내어 각 시나리오에서의 분할 정확도를 실제 정답과 비교 평가할 수 있게 합니다. 수역(WS)은 모든 시나리오에서 93.6%를 초과하는 가장 높은 클래스별 정확도를 보였으며, 그 다음은 92%를 초과하는 정확도를 가진 농업 지역(AA)입니다. AA는 해당 지역에서 가장 지배적인 피복이지만, 모든 시나리오에서 92.5% 이상의 정확도를 나타냅니다. 자연 식생이 있는 산림 지역(FANV)과 인공 표면(AS)은 모든 시나리오에서 성능이 가장 낮았으며, 농업 지역으로 잘못 분류되는 경우가 많았습니다.

그림 4. 테스트 데이터셋의 선택된 지역에 대한 분할 맵 예시. 단일 시간(U-Net ResNet-50). 시계열(U-Net++ ResNet-50). 시계열 + 증강(U-Net ResNext50 32x4d).

4 논의

원격 감지 장치의 발전은 대량의 지리 정보를 수집하고 처리할 수 있는 새로운 플랫폼을 가능하게 했습니다 [21]. GEE는 토지 피복을 지속적으로 모니터링하기 위한 상당한 발전을 나타내는 광범위한 S2 시계열 이미지를 제공합니다. 원격 감지 이미지를 사용한 토지 피복 및 토지 사용 분류를 위한 딥 러닝 접근법이 인기를 얻고 있습니다. 본 논문에서는 세 가지 의미론적 분할 접근법을 활용했습니다. 성능을 비교하기 위해 1) 기본 아키텍처, 2) 백본 유형, 3) 데이터 증강을 고려한 세 가지 시나리오를 만들었습니다.
모델은 저해상도 원격 감지 이미지를 분류하고 분할할 수 있으며, 정확도와 mIoU가 각각 73%와 51%를 초과합니다. 시계열만 사용할 경우(시나리오 2) U-Net++가 가장 좋은 성능을 보였지만, U-Net은 저중해상도 위성 원격 감지 이미지에 가장 경쟁력 있는 모델이었습니다. 이 결과는 [20]의 주장을 뒷받침합니다. PSPNet 모델은 인코더 선택에 관계없이 모든 시나리오에서 상대적으로 열악한 성능을 보였습니다. 가장 좋은 결과는 데이터 증강 기법을 사용할 때 얻어졌으며, 이는 데이터 증강이 훈련 데이터셋의 크기와 품질을 향상시키고 모델의 일반화 능력을 강화하여 더 복잡한 패턴을 포착하는 데 도움을 주기 때문입니다 [22].
모델은 인공 표면의 세부 분류에서 성능이 저조합니다. 그러나 이 오류는 실제 Corine Land Cover 레이블과 정확한 인공 구역 유형 간의 차이로 인해 영향을 받을 수 있습니다. Corine Land Cover는 많은 인공 지역을 농업 지역으로 잘못 분류하는 경향이 있습니다. 또한, 나무와 녹색 식생 사이에 혼합된 인공 표면의 존재는 이들이 도시보다는 농장과 유사한 서명을 나타내게 할 수 있습니다 [23]. 사용된 이미지의 제한된 해상도는 이러한 지역을 정확하게 레이블링하는 데 더욱 어려움을 초래합니다. 접근 방식은 수역, 농업 지역 및 자연 식생이 있는 산림 지역을 인식하는 데 더 나은 성능을 보였으나, 도시 구조는 분류하기 가장 어려운 클래스로 나타났습니다. 이는 [23]에서 입증된 바와 같습니다.
마지막으로, 우리의 결과는 LC 분류에서 높은 정확도를 보여주어 우리의 접근 방식과 방법론이 유망함을 나타냅니다. 국내에서 수행된 다른 연구와 비교할 때, 우리의 결과는 Planet Explorer 센서를 사용하여 5m 이미지를 통해 93%의 정확도를 달성한 [24]의 유사 연구보다 약간 낮습니다. 그러나 Planet는 무료로 제공되지 않으므로 다른 연구에서의 복제를 제한할 수 있습니다. 반면, 우리의 연구는 레이더와 가시-근적외선 및 SVM 데이터를 통합하여 88.75%의 정확도를 달성한 [25]의 결과를 초과했으며, Sentinel 2의 10미터 대역을 사용하여 62%의 정확도를 얻은 [26]의 결과도 초과했습니다.

그림 5. 각 시나리오의 최우수 모델에 대한 혼동 행렬. a) 단일 시간(U-Net ResNet-50). b) 시계열(U-Net++ ResNet-50). c) 시계열 + 증강(U-Net ResNext50 32x4d).

5 결론 및 향후 연구

S2 이미지를 사용하여 다양한 딥 러닝 알고리즘으로 토지 피복(LC) 분류를 구현하고 평가하며 비교하였습니다. 본 연구에는 단일 시간, 시계열, 그리고 데이터 증강 구현을 포함한 세 가지 서로 다른 이미지 데이터셋이 포함되었습니다. 우리의 결과는 다중 클래스 분할에서 좋은 성능을 보여주었으며, 정확도는 89%이고 mIoU는 74%에 달했습니다. 구름의 존재는 광학 데이터의 가용성을 제한할 수 있으며, 이는 모델이 사용할 수 있는 정보의 양을 줄여 데이터 분류 및 분석 모델의 성능에 부정적인 영향을 미칠 수 있습니다. 향후 연구에서는 구름을 관통할 수 있는 능력을 가진 레이더 데이터를 통합하는 것을 고려할 것을 제안합니다. 이는 귀중한 토지 피복 정보를 제공할 수 있습니다. 우리의 연구는 새로 개발된 모델을 평가하는 데 사용할 수 있는 기준 결과를 제공하며, 반지도 학습 및 다중 센서 데이터 통합과 같은 기술을 포함합니다. 마지막으로, 이 연구는 콜롬비아에서 S2 데이터와 딥 러닝 감독 접근 방식의 토지 피복 분류 가능성을 평가하는 데 기여합니다.