글자인식 부분에서는 feature를 추출하는 CNN과 시계열 모델인 RNN을 통합하여 하나의 통일된 네트워크 구조의 RCNN이 제안되었다. CRNN은 먼저 CNN을 통해 입력 이미지로부터 feature sequence를 추출하고 이 feature sequence들을 RNN의 입력 값으로 하여 이미지의 텍스트 시퀀스를 예측한다. 예측된 텍스트 시퀀스를 텍스트로 변환한다. 이 모델은 어떤 미리 정해진 어휘에 제한되지 않고, 임의 길이의 시계열 데이터를 다룰 수 있는 차이점을 가진다.

Transcription은 RNN에 의해 만들어진 프레임 별 예측을 label sequence 로 변환하는 과정. CTC에서 정의된 조건부 확률을 채택한다. 우리의 방법은 학습 데이터로 단어 label을 가진 합성 텍스트만을 사용하기에 학습을 위해 문자 label이 있는 790만 개의 실제 단어 이미지를 사용한 photoOCR과 매우 다르다

3.4 Musical Score Recognition

이미지에서 악보를 인식하는 것을 OMR (Optical Music Recognition) 문제라고한다. 공개 데이터 세트는 존재하지 않아서 CRNN에 필요한 훈련 데이터를 준비하기 위해 악보 사이트에서 2650개의 이미지를 수집. 각 이미지는 3 ~ 20개의 음을 포함하는 악보 단편을 포함. 모든 이미지에 대해 실제값 label sequence를 수동으로 라벨링했다. 수집된 이미지는 회전, 크기 조정 및 노이즈 제거, 자연스러운 이미지로 배경이 대체되면서 265k의 학습 샘플로 보강

테스트를 위해 세 가지 데이터 셋을 구축. 1) clean : 악보 사이트에서 수집된 260개의 이미지 포함 2) synthesized : 언급한 argumentation 전략을 사용하여 clean에서 생성 3) real-world : 휴대전화 카메라로 음악 서적에서 찍은 스코어 조각 200 이미지를 포함

인식 성능을 평가하기 위해 다음과 같이 두 가지 방법이 사용 1) 올바르게 인식된 악보 조각의 비율 2) 평균편집거리 (average edit distance), 예측 음높이 sequence와 실제 값 사이의 평균 편집거리. 비교를 위해 상용 OMR 엔진 capella scan과 photoScore를 평가

Conclusion

CRNN은 다양한 크기의 입력 이미지를 취할 수 있으며, 길이가 다른 예측을 생성 학습 단계에서 각 개별 요소(문자)에 대한 상세한 주석이 필요없는 대용량 (단어)에서 직접 실행됨 fully-connected layer를 버리기 때문에 훨씬 작고 효율적인 모델

parksunwoo / memo-archive

An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition #3

3.4 Musical Score Recognition

Conclusion