Open nevfy-y opened 3 years ago
Это очень полезное наблюдение. Мне казалось, что все такие случаи выявили и исправили еще в году 2009... Тут нужно написать скрипт для выявления всех таких случаев, просмотреть список и исправить одним махом.
find . -name '*.txt' | xargs sd '([\p{Script=Hiragana}\p{Script=Han}\p{Script=Latin}\p{Script=Common}\p{N}])(・)([\p{Script=Hiragana}\p{Script=Han}\p{Script=Latin}\p{Script=Common}\p{N}])' '$1・$3'
находит и меняет вот эти файлы:
modified: 000/85/000-85-48.txt
modified: 001/25/001-25-68.txt
modified: 002/05/002-05-18.txt
modified: 002/33/002-33-48.txt
modified: 003/24/003-24-15.txt
modified: 003/31/003-31-01.txt
modified: 004/10/004-10-83.txt
modified: 004/47/004-47-90.txt
modified: 004/80/004-80-54.txt
modified: 006/19/006-19-81.txt
modified: 006/25/006-25-85.txt
modified: 006/30/006-30-37.txt
modified: 006/45/006-45-23.txt
modified: 007/56/007-56-27.txt
modified: 007/79/007-79-67.txt
modified: 008/66/008-66-63.txt
modified: 008/99/008-99-19.txt
Ложноположительные есть: -フェザー・でんしゃ【フェザー・電車】(фэдза:-дэнся)〔000-85-48〕
Вместо этого использован символ ・U+30FB, Katakana Middle Dot в карточках(появились при поиске
【*・*】
):006-30-37 006-19-81 002-05-18 007-56-27 007-79-67 008-66-63 003-24-15
Не всегда между всеми вариантами написания стоит не так точка. Например
たちこめる【立ち罩める・立ち籠める・立ち込める・立込める・立ち篭める・立籠める】(татйкомэру)〔006-30-37〕 нависать над чем-л., окутывать что-л. (о дыме, тумане).
Первые два варианта отделены U+FF65, а между следующими U+30FB.