В инструкции по токенизации про фамилии-через-дефис сказано, что их надо разделять, если только их нет в словаре. Про имена типа Жан-Поль сказано просто, что их надо разделять.
Предлагается:
Поменять инструкцию, чтобы не разделять словарные имена.
Найти тех, кто есть в словаре и несправедливо разделён, соединить.
Найти кандидатов, которых надо добавить в словарь и склеить; добавить и склеить.
В инструкции по токенизации про фамилии-через-дефис сказано, что их надо разделять, если только их нет в словаре. Про имена типа Жан-Поль сказано просто, что их надо разделять.
Предлагается: