Face image preprocessing logic 구현

hominot commented 5 years ago

이미지 pre-processing:

MTCNN로 bounding box와 keypoint 추출
- MTCNN으로 여러개의 bounding box가 발견됐을 때 처리 (넓이가 가장 큰 것만 쓰기)
눈과 코 위치를 사용하여 왼쪽 눈 오른쪽 눈이 수평을 이루도록 rotate (예: skimage 패키지의 similarity transform 사용)
rotate된 bounding box를 포함하는 가장 작은 정사각형으로 이미지 저장.

참고: https://github.com/ipazc/mtcnn http://scikit-image.org/docs/dev/api/skimage.transform.html#skimage.transform.SimilarityTransform

코드 위치: https://github.com/hominot/research/blob/master/metric_learning/data_loaders/lfw.py#L13

hominot commented 5 years ago

아직 테스트 중입니다만 mtcnn으로 detect된 bounding box로 cropping하여 jpg로 저장하는 스크립트를 짰습니다: https://github.com/hominot/research/tree/feature/mtcnn bounding box가 여러개일 경우는 bounding box 중 면적이 가장 큰 것을 씁니다. bounding box가 하나도 detect되지 않았을 경우에는 원본 이미지를 그대로 씁니다.

현재 제 아마존 장비로 lfw, webface 데이터를 처리 중인데, 처리 완료되면 결과 확인 후에 pull request 보내겠습니다.

bounding box만 있어도 성능이 많이 좋아질 것 같군요. 눈코입 위치를 사용하여 rotate하는 작업은 위 작업에 대한 성능을 확인한 후에 작업하려고 합니다.

hominot commented 5 years ago

mtcnn이 얼굴을 엄청 타이트하게 잡는다 (턱 일부와 머리스타일이 잘리는 경우가 많다.) mtcnn이 리턴하는 bounding box보다 약 1/8 정도 더 크게 bounding box를 잡아보는 것도 좋을듯.

hominot / metric_learning

Face image preprocessing logic 구현 #55