7/22 ~ 7/29 3주차 정리

jwkwak45 / AIstudy.github.io

인공지능 스터디

1 stars 1 forks source link

7/22 ~ 7/29 3주차 정리 #7

Open YunjeongPARK1 opened 5 years ago

YunjeongPARK1 commented 5 years ago

Residual Network가 왜 잘 되는지 해석해보기

-Deeper is better? -> No, there is degradation problem. -ResNet은 이 문제를 뒷 단으로 미룬다.

-ResNet은 그냥 쓰면 다 잘 되었지만 '왜' 잘되는 지에 대한 해석은 없었다.

-왜 잘되나? : ResNet is an Ensemble Model. : 원래 앙상블 모델은 데이터를 여러 갈래로 나누어서 각각에 대해 별개의 모델을 만들고 평균을 내는 방법. : ResNet에서 데이터를 여러 갈래로 나누지는 않지만 skip connection이 앙상블 역할을 한다. : skip connection -> 갈림길을 만든다. -> 각각의 갈림길을 선택하는 여러 경우의 수가 생긴다. -> 각각의 경우의 수를 다른 모델로 본다면 앙상블 모델과 같은 역할을 한다고 볼 수 있다.

-재미있는 실험: layer를 없애면 어떻게 될까? : layer를 하나 없앴을 때 문제가 거의 안 생긴다. (max-pooling을 하는 중요한 레이어를 삭제하지 않는 이상) : layer를 개수를 늘려나가며 없애도 급격하게 에러가 늘지 않고 부드럽게 늘어간다. ->그래서 앙상블 모델로 볼 수 있다(는 게 논문의 주장이다)

-wide residual network : 딥한 것만이 능사가 아니다. : 파라미터가 같을 때 depth보다 width를 늘리는 게 성능이 좋았다는 실험 결과. : GPU를 여러개 -> 동시에 학습시킬 수 있는 양이 늘어난다. (즉, Batch의 크기를 키울 수 있다.) : 그렇지만, depth가 늘어나면 GPU가 아무리 많아도 시간이 오래 걸린다. (순차적으로 해야하기 때문에) : Width를 늘리는 것(=채널을 늘리는 것)이 성능 향상에 도움이 된다. : width를 늘리는 것이 학습시킬 때 쉽다.

jwkwak45 commented 5 years ago

7/23 Residual Network가 왜 잘 되는지 해석해보기

Deep 한것이 더 좋나??
- Degradation 문제가 생긴다. (deep 한것이 더 성능이 안좋은 것)
residual 이 왜 잘되는지?
- 수학적인 해석보다는 경험적으로 잘된다고만 이야기
- ResNet 이 Ensemble Model 이기 때문에.
ResNet과 앙상블 모델
- Bagging 여러개의 모델을 만들어서 취합.
- 데이터는 하나로 고정하되, Skip connection 으로 앙상블 역할.
- 입력에서 출력까지 가는 길에 Skip connection으로 갈림길이 생겨, 각각 경우의 수를 다른 모델로 본다. 즉, 각각 길을 합친 앙상블로 본다.
- Layer를 없애 보면? 뒷 단의 레이어를 없앨때는 성능의 별 차이가 없다.
- unpooling이 일어나는 곳을 제외하면 없앨때 별 차이 없음.
- 여러개의 레이어를 없애면 에러가 온건하게 비례하여 올라간다.
- 이렇게 여러 레이어가 없어짐에 따라 성능이 부드럽게 떨어져, 앙상블이랑 비슷하다.
Wide Residual : Deep 한것만이 중요하지는 않다.
- 1x1으로 줄여가는 bottle neck 형태가 언제나 좋은것은 아니다.
- Depth 가 낮아도 성능이 높을때도 있다. (실험적 결과)
- GPU를 활용하면 동시에 학습시킬수 있는 양이 많아지는데, Layer의 Depth가 늘어나면 그 순서대로 해야하기에 장점을 활용하지 못하고 속도가 느려진다. 그렇기에 Depth가 낮고 채널수를 늘린게 성능이 더 좋은 경우가 있다.
- Widening (채널을 늘리는것) 이 성능에 도움이 된다.
- 학습시키는 관점에서 채널 수를 늘리는게 학습이 더 쉽게 된다.
- 간단한 분류 문제에서 더 활용 여지가 있다.

jwkwak45 commented 5 years ago

7/24 Weakly Supervised Localization

물체가 뭔지 알려주는것도 중요하지만, 어디에 있는지 알려주는것도 중요하다.
이미지와 라벨만 가지고 어디에 있는지 알려주는 것이 WSL
원래는 이미지에서 어디에 있는지 바운딩을 해서 알려줘야 한다.
Convolution이 내부에서 어떻게 일어나는지를 통해서 물체의 위치를 확인해보는것.
의료 영상 같은 경우에서 중요하다.
AlexNet + GAP + places205 이루어진 알고리즘 구성
CNN을 정의하고, Feature 맵이 나오면 GAP(Global average pooling) 하여 벡터 한 줄을 얻고 벡터를 통해 분류를 하면 된다.
GAP 썼을때 왜 잘되는지?
Class Activation Map
- convolutional feature map : 원래 이미지와 각각의 필터가 얼마나 일치하는지.
- 벡터에서 Weight 는 각각의 필터들의 가중치??
- 이미지에서 어떤 위치들을 보고 어떻게 판단했는지 알 수 있다.
GAP vs GMP
- GAP는 전체적인 평균을 보고 평가, GMP는 물체에서 가장 강력한 특징(?)을 통해서 평가??
GAP 의 성능
- 1~2% 정도의 성능저하는 생길 수 있다?
- 분류에서도 큰 성능 저하는 안 일어나고
- 위치 파악에서도 위치를 라벨링한 supervised 보다 크게 떨어지지 않는다.
Localization
- 생기는 히트맵 주변에 바운딩 박스
Scene Recognition + Localization
- 어떠한 요소를 구성하는 요소들(Object)을 파악하기도 하는...??
Concept localozation
- 거울이나 물에 비친것, 창밖 풍경들도 잘 체크
- 글자가 있는 영역에 히트맵을 그리는 text detector 도 가능
결론
- Class Activation Mapping 과 GAP.
- 바운딩을 박스로 위치를 표시하지 않아도 위치 학습.
- 분류 뿐 아니라 여러가지의 문제(텍스트 감지) 들에도 활용가능
- 구현도 간단하고 잘된다.

YunjeongPARK1 commented 5 years ago

Weakly Supervised Localization

-어떤 물체인지도 중요하지만 어디에 있는지 아는 것도 중요 -어디에 있는 지 아는 문제를 푸는 것 : detection, localization

-원래는 detection을 풀기 위해서는 물체가 어디에 있는지 네모 박스로 친 정보가 데이터셋 자체에 있어야 함 -> 데이터셋을 만들기 까다로움 -이 알고리즘은 데이터에 라벨만 있어도 network가 자동으로 어디에 있는지 알려줌.

-Class Activation Map: Convolution이 어디서 일어나는지를 보고 그것을 통해서 물체가 어디있는지 알아보자는 것. -in One CNN forward pass: 한 번만에 된다.

-의료 영상에서 중요: 어디에 문제가 있는지 알려주는 것이 중요하기 때문에 -CNN을 디버깅 하는데 있어서 중요: Convolution이 제대로 안 일어날 때 어디에서 activation을 해서 제대로 안되고 있는지 살펴볼 수 있다.

-Architecture : AlexNet + GAP + places205 : 구현이 굉장히 간단하다 : GAP(Global Average Pooling) 왜 얘를 썼을 때 잘되는가?

-결국 CNN이 어떻게 동작하는지 알면 GAP도 이해가 된다. : Indentify important image regions by projecting back the weights of output layer to convolutional feature maps. : convolution feature map : 앞단에서 convolution을 통해 얻어지는 정보 : convolution : convolution feature map과 이미지 혹은 앞단의 convolution feature map이 얼마나 비슷한지를 나타냄. : 결국 convolution feature map의 채널들이 의미하는 바는 convolution feature로 이미지를 찍었을 때 그 둘이 얼마나 유사한가를 나타냄. : 채널이 512개 -> 각각의 convolution filter와 이미지가 얼마나 잘 맞는지가 512개 : Wn : n번째 feature가 분류하려는 것과 얼마나 유사한지 : GAP : 각각의 convolution channel에 weighted sum을 해서 얻음. : 물체 전체의 위치를 고려하되 분류하려는 것에 해당하는 물체는 웨이트가 크므로 더 많이 고려하게 됨. : 최종적으로 분류하려는 문제에 해당하는 물체의 위치를 잡음.

-GAP vs GMP : GMP는 제일 큰 값 하나를 쓴 것. : GAP는 물체 전체를 보는 반면 GMP는 물체의 하나의 특징적인 부분에 집중한다. : GAP가 localization에서 성능이 더 좋다.

-Classfication : GAP를 쓰면 분류 문제는 조금 못 푸는 편이다.

-Localization : 히트맵 근처에 바운딩 박스를 침.

-weakly vs weakly : GAP가 성능이 좋다.

-weakly vs fully - supervised : GAP가 성능이 조금 안좋으나, GoogleNet이랑 함께 사용하고 fully supervised에 AlexNet을 사용하면 성능 차이가 별로 나지 않는다.

jwkwak45 commented 5 years ago

Image Detection 방법론: RCNN, SPPnet, FastRCNN, FasterRCNN

RCNN
- 시초가 된 논문
  1. 딥러닝과 상관없는 방법론을 통해 오브젝트가 있을 것 같은 곳에 바운딩 박스를 쳐준다.
  2. 이후 CNN 으로 feature를 뽑고
  3. SVM에 집어넣는다.
- region proposal : 맨 처음 바운딩 박스를 만드는것. 이것이 잘되냐에 따라 성능이 차이가 많이 난다.
- 시간이 오래 걸린다. region proposal 도 오래 걸리며, 이렇게 region 을 뽑은 것들을 전부 CNN 을 돌리기 때문에.
- Bounding Box Regression : 실제 물체 위치와 표시된 위치의 차이를 좁히려는 것
SPPnet (Spatial Pyramid Pooling)
- 하나의 이미지를 넓이를 줄여가며 정보를 한번에 고려하여, 이미지 스케일에 조금 덜 구애받는??
- RCNN 의 단점인 바운딩 박스마다 CNN 이 돌아간다는 점이 없고 CNN이 한번만 돌아간다.
- CNN 은 고정된 이미지 인풋 사이즈가 필요하다. SPPNet은 전체 feature 맵에서 정보를 빼온다.
- ??
Fast R-CNN
- SPPNet과 구조가 비슷하다.
- Rol pooling Layer
Faster R-CNN
- 딥러닝으로 region proposal 부터 한다.
- Region Proposal Net + Fast RCNN
- 이미지의 사이즈와 스케일을 다룰때, Pyramids of image, Pyramids of filters
- 그리고 Pyramids of anchor(미리 정해져 있는 바운딩 박스) : 바운딩 박스들의 크기와 위치를 조정해가며 실제와 일치시켜 가는것

jwkwak45 commented 5 years ago

Image Detection 방법론: AttentionNet, SSD, YOLO, YOLOv2

AttentionNet
- 여태까지의 디텍션은 어떻게든 바운딩 박스를 만들고 분류를 하는 문제였다
- 여기서는 네모의 크기를 바꿔가는(바꿔가며 이미지 안의 물체를 찾는) 문제로 바꾼다.
- 이 알고리즘은 이미지 안에 물체가 하나 있다고 가정.
- 정확한 한 물체의 정확한 바운딩 박스를 찾는것이 목적??
- 이미지를 일정한 사이즈로 리사이즈하고, 좌측상단, 우측하단으로 나눠 각 방향으로 바운딩 박스를 움직이고 크기 조정을 한다.
- 여러 바운딩 박스가 생겼을 경우, 머지하고, 그 결과를 크게 키운뒤, 다시 줄여가는 방법을 사용한다. 이렇게 여러개일 경우는 조금 복잡하다.
- 디텍션 대회 보다는 한 가지의 물체를 정확하게 인식하기 위해 설계되었다고 한다.
YOLO (You only look once)
- 기존은 전부 바운딩 박스를 찾고, CNN으로 분류 하는것
- YOLO는 한번에 처리, 그래서 엄청 빠르다
- 바운딩 박스를 찾는것과 그것이 어떤것인지를 동시에 확인.
- 이미지를 S x S 의 그리드화 하고, 각 그리드마다 클래스 C와 B(2)개의 바운딩 박스를 부여한다.
- 작은 물체끼리 붙어있는 것을 잘 인식 못할 수 있고, 정확한 바운딩 박스 위치에 약하다.
SSD (Single Shot Multi Box Detector)
- YOLO 와 Faster의 개념을 합친 느낌
- Faster R-CNN 은 7 FPS 정도로 분석할 수 있는데, SSD는 59FPS 정도까지 가능하다고 한다.
- Feature 맵의 한 셀마다, k 개의 anchor box
YOLO 9000
- SSD 보다 더 높은 성능을 내기 위한 방법 사용
- 위치 문제, Low recall (정답을 말했을때, 정답인 확률이 아닌, 정답을 얼마나 커버하는지.(암환자 분류로 따지면 실제 암환자일때 암환자라고 말하는것))
- Batch Normalization
- High Resolution
- Anchor Boxes
- Dimension Clusters
- Fine grained Features
- Multi Scale Training : 이미지 크기를 바꿔가며 학습
- Hierarchical Classification : 계층 구조를 만들어 9000개의 클래스를 분류

YunjeongPARK1 commented 5 years ago

Image Detection 방법론 : RCNN, SPPnet, FastRCNN, FasterRCNN 오늘 공부할 내용은 1. RCNN 계열 2. YoLo 등 좀 더 빠른 방법론

일반적으로 CNN 이 잘 되는 이유는 이미지에서 feature를 잘 뽑기 때문이다. 즉, 다시 말해 convolution, subsampling을 이용한 feature extractor로서의 역할을 잘 하기 때문이다.

하지만 물체에 네모를 쳐줘야 하는 문제가 이미지 detection을 어렵게 만든다. 그래서, 초창기에는 이 문제를 이미지에서 바운딩 박스를 많이 뽑아내고 원하는 사이즈로 resize한 다음, pretrained CNN에 넣어서 feature를 뽑고 돌렸다.

R-CNN은 세 가지 components로 구성되어 있음

카테고리와 무관한 region box를 발생시킨다. 물체가 있을 것 같은 공간에 box를 엄청 많이 침. 여기에서 시간이 많이 걸리게 됨
네모로부터 CNN을 통과시킨다. 내가 찾고 싶은 물체에 대한 것이 아니라 미리 학습되어 있는 CNN에서 feature를 뽑는다.
그리고 linear SVM으로 classify한다.

Region proposals : 이 부분에 따라 성능 차이가 난다. 여러 알고리즘이 있는데 R-CNN은 Super pixel based selective search algorithm을 사용. Feature extraction : AlexNet을 사용. 당시에는 얘만 있음. Test time : 이미지가 들어옴 -> 2000개의 region proposals를 뽑음 -> 각각을 227x227로 reshape (고정된 사이즈)

jwkwak45 commented 5 years ago

이미지와 질문이 주어졌을 때 답을 맞추는 Visual QnA

VQA 데이터셋
- 여러가지 데이터셋이 있다. 사람이 맞출수 있지만 smart robot 은 맞추기 힘들만한것
- 차의 색깔은 무엇인가? 이것은 베지테리언 피자인가? 와 같은 문제
- 대부분 상당히 쉬운 문제
Visual QnA
- 이미지를 설명하는 정보를 찾아내는것이라고 생각할 수 있다.
- 사람 옆에 강아지가 있다거나 하는 등의 사진안에서의 관계와 속성을 찾는 것과 같은 느낌.
- 사람이 생각하는 방식으로 생각하도록?
Sub Problems in Image QA
- Classification with Complex Setting : Multi-domain classification
- 어떤 질문이 들어오는가에 따라서 분류가 달라진다. (사람이 점프하는 사진이면, 분류는 물체기준으로 사람. 행동 기준으로 점프다.)
- yes/no 방식의 질문도 알아들어야 한다.
- Zero Shot learning : 처음 본것을 어떻게 알아야할지.(real world image는 엄청나게 많은 클래스가 있기 때문에)
- Novel Computer Vision Task : 컴퓨터 비전에서 다루는 문제
- Reference Problem : 어떤것을 지정하는지에 대한 문제
- Spatial Relation Problem : 무엇이 어떤곳에 있는지에 대한 문제
- Visual semantic role labeling : 어떤 동작에 대한 인식
- Weakly supervised learning to count : 몇개나 있는지에 대한 문제. CNN에서 처리하기는 어렵다고 함.
- Data Efficiency Problem : 문제를 의미 단위로 쪼개야 하는 것에 대한 문제
- Image QA task compositionality : 예를 들면, "말에 위에 있는 사람이 무엇을 하고 있습니까?" 라는 질문은, 사람/ 위에/ 말/ 행동을 모두 알아야한다. 상당히 어려운 문제이다.
- Natural Language Understanding (자연어처리)

-Solving VQA

DPPNet / Attention based method : 질문에 dependent 한 분류기를 만들자
- 질문에 따라 마지막 파라미터 레이어를 바꾼다
- 질문에서 feature를 뽑는것은 생각보다 쉽지 않다. bag of words,CNN,RNN 등을 활용해서 질문 분석을 한다.
- Hashing Trick : 질문과 이미지에서 파라미터가 너무 많아져, 적은 수의 파라미터로 많은 수의 파라미터를 정의할 수 있도록 하는 것. 성능이 많이 떨어지지 않는다.
Multimodal Compact Bilinear Pooling for VQA
- Multimodal language and visual understanding : 이미지와 질문의 의도를 잘 파악해서 섞는?? (이미지에 있는 정보와 질문에서 나온 정보가 일치하는지?)
- 이 또한 파라미터와 벡터의 수가 문제.
- Attention : 질문에서 필요한 부분에 대한 attention

jwkwak45 commented 5 years ago

이미지를 설명하는 문장을 만들어내는 Image Captioning

Image Captioning 의의
- 이미지에 대한 디스크립션을 통해서, 검색 엔진에서는 이미지 검색을 다양화 할 수 있다.
- 시각장애가 있는 사람들에게 이미지에 대한 설명이 가능하다
Show and Tell
- Multi-modal Learning
- 이미지에서 진짜 원하는 정보를 어떻게 설명하는가?
- CNN 으로 이미지를 분석하고, RNN으로 설명하는 문장을 만들어 낸다.
- Recurrent Net : 셀 단위를 통한 언어 번역
- 예를 들면 프랑스어를 셀 상태로 만들어, 그 셀을 통해 영어로 번역한다고 생각하면, 이때 CNN 을 통해 프랑스어 대신에 셀 상태를 만들어 영어로 문장을 만들어 낸다고 생각.
- 그 후 앞선 단어들을 통해 문장을 구성
Show, Attend and Tell
- Attention 메커니즘을 활용
- 내가 이전에 말한 단어들을 활용하며, 어텐션을 바꾸는 식
DenseCap
- 분류 문제를 확장
- 이미지 캡셔닝을 훨씬 더 다양하고 세밀하게. (노트북 ->책상위에 놓여있는 하얀색 노트북 과 같은 식으로)
- Soft Spatial attention
- Bilinear interpolation
- BRNN
- Open World detection