Object detector обучается на кропах и "не видит" контекста конкретных символов. Простая замена архитектурных элементов или функции потерь с этим не поможет, нужно переосмысление процесса обучения. Возможна постобработка с помощью языковых моделей.
[ ] Реализация CTC Loss с нужными архитектурными элементами.
Не ясно, как поведёт себя детектор на больших изображениях, поэтому пока предлагаю следующие варианты:
Обучить на кропах с Detection Loss, дообучить на полных изображениях с CTC loss + Detection Loss. Если появятся изображения с транскрипцией, но без аннотаций, то дообучать можно и без Detection Loss.
Сразу обучать на полных изображениях с CTC loss + Detection Loss.
Бить изображения на строки по боксам, обучать отдельную задачу Scene Text Recognition с CTC Loss.
[ ] Подключение Language Model
Предварительные тесты показывают неплохое увеличение в качестве, но "сырой" формат bbox-ов для языковых моделей не подходит. Нужен вектор вероятностей символов по временным шагам (по порядку символов в предложении).
Object detector обучается на кропах и "не видит" контекста конкретных символов. Простая замена архитектурных элементов или функции потерь с этим не поможет, нужно переосмысление процесса обучения. Возможна постобработка с помощью языковых моделей.