Closed GoogleCodeExporter closed 9 years ago
Уточнение. Пробелы после кавычки “ нужны
только если после нее идет буква, цифра или
открывающая скобка ( если же идет знак
препинания, то пробел не нужен.
Original comment by stv....@gmail.com
on 22 Mar 2013 at 7:23
Если после “ идет любая открывающая
кавычка, то пожалуй тоже нужен пробел, но
перед открывающей кавычкой он нужен в
любом случае:) В общем, я не знаю насколько
конкретные вам нужны советы:) Можно
конкретные регэкспы обсудить если есть
необходимость.
Original comment by stv....@gmail.com
on 22 Mar 2013 at 7:39
Проблема - перепутал местами открывающую
кавычку лапку ( „ ) с закрывающей ( “ ).
Исправил.
Спасибо за сообщение.
Original comment by dik...@gmail.com
on 25 Mar 2013 at 9:00
Хотя - поспешил с ответом.
Ситуация с кавычками наблюдается только в
опции Корректора Текста "Удалить пробелы
внутри кавычек (« слово » -> «слово»)". Если
ее отключить, то пробел не удаляется.
Вспомнил, что раньше я эту проблему уже
рассматривал. Дело в том, что в вашем
примере используются НЕМЕЦКИЕ
кавычки-лапки. Закрывающая немецкая
кавычка-лапка ( “ ) имеет такое же
"начертание" и код (8220), что и открывающая
АНГЛИЙСКАЯ кавычка-лапка ( “ )
См. http://ru.wikipedia.org/wiki/%D0%9A%D0%B0%D0%B2%D1%8B%D1%87%D0%BA%D0%B8
Как решить проблему - не знаю.
Выше написал, что исправил - переставил
кавычки местами. Но тогда не будет работать
отлов английских кавычек...
Если вы сможете составить регекс для
удаления пробелов после открывающих
кавычек ВСЕХ видов ("«„“), и до закрывающих
кавычек ВСЕХ видов ("»“”), и так, чтобы
немецкая закрывающая лапка не путалась с
английской открывающей - я буду очень
признателен. В приведенных скобках - в 1-й
скобке “ - это английская открывающая
лапка, а во 2-й она же “ - немецкая
закрывающая.
Original comment by dik...@gmail.com
on 25 Mar 2013 at 9:17
Кстати - эта же проблема возникает и при
определении, чем является вот эта кавычка: "
- открывающей или закрывающей? Код у нее
один и тот же...
Original comment by dik...@gmail.com
on 25 Mar 2013 at 9:32
Мне кажется самым простым вариантом
сделать отдельные опции: "обрабатывать
английские кавычки" и "обрабатывать
немецкие кавычки" или же сделать
предварительный анализ текста на наличие
парной кавычки которая может быть маркером
присутствия в тексте немецких или
английских кавычек.
Еще одна идея: у меня есть подозрение, что в
старых русских книгах в основном
используются немецкие лапки, и значит
можно их связать с кириллицей, а английские
с латиницей... но это надо проверять... Я
честно говоря английские лапки не встречал
еще в текстах русских книг.
Original comment by stv....@gmail.com
on 25 Mar 2013 at 12:05
Вообще, по вашей ссылке в википедии
написано, что в русской типографике
используются кроме ёлочек прежде всего
немецкие лапки, и в таблице кодов кавычка с
кодом 8220 помечена как закрывающая.
Original comment by stv....@gmail.com
on 25 Mar 2013 at 12:41
С определением принадлежности кавычки
языку есть сложности - признак языка сложно
идентифицировать для кавычки. С другой
стороны, я видел много книг на русском с
английскими лапками (хоть это и нарушение
типографики). Потом, проблема с кавычкий
вида " все еще остается - она и открывающая,
и закрывающая одновременно...
Еще проблема в том, что Корректор заточен
для корректировки И русских книг, И книг с
латиницей. Если делать настройку ТОЛЬКО
для русского текста, то это будет проблема
для английского текста (локаль редактора
тут не поможет - я обрабатывал английские
книги на редакторе с русской локалью)...
Насчет "делать предварительный анализ
текста на наличие парной кавычки которая
может быть маркером присутствия в тексте
немецких или английских кавычек". Думал в
свое время над этим. Но алгоритм будет
очень сложен, хотя дело даже не в этом.
СКОРОСТЬ обработки будет настолько низкой,
что...
На данный момент я не могу найти выход.
Возможно, уже глаз "замылился". Если будут
свежие идеи - раб буду их реализовать.
Original comment by dik...@gmail.com
on 26 Mar 2013 at 6:18
[deleted comment]
Хорошо, я подумаю...
Возможно так и придётся поступить.
Original comment by dik...@gmail.com
on 27 Mar 2013 at 8:35
Есть идея: Из опции "Удаление пробелов
внутри кавычек" удалить обработку
немецких/английских лапок, а оставить одни
"ёлочки". Не так часто встречаются книги,
где между открывающейся лапкой и словом и
закрывающейся словом и лапкой стоят
пробелы.
Если сделать вышеописанное, то и
пользователю не надо будет голову ломать,
какие лапки выбрать (все равно, выбрав
немецкие, потом придется вручную вставлять
удалившиеся пробелы около английских
лапок), и ошибочной корректуры не будет...
Original comment by dik...@gmail.com
on 8 Apr 2013 at 9:32
Тем более, что пробелы до/после кавычек
появляются в основном после OCR - в набранном
тексте их просто нет.
Наверное, я так и сделаю.
Original comment by dik...@gmail.com
on 8 Apr 2013 at 9:36
Круто было бы интегрировать в ваш пакет
миникорректор
http://wiki.i-rs.ru/wiki/RU/extensions/writer/minicorrector или
сделать настройки замен как в нем в виде
регэкспов. Там кстати все регэкспы
привязаны к языковой локале и хранятся в
отдельных файлах для каждого языка.
Original comment by stv....@gmail.com
on 8 Apr 2013 at 1:58
ИМнтересное расширение...
Боюсь, интегрировать его в OOoFBTools не
получится по причине 1. Огромный объем
работы. 2. Как-то неэтично будет.
На счет "все регэкспы привязаны к языковой
локале" - надо будет посмотреть.
Спасибо.
Original comment by dik...@gmail.com
on 9 Apr 2013 at 10:32
Original comment by dik...@gmail.com
on 21 Nov 2013 at 1:31
Original issue reported on code.google.com by
stv....@gmail.com
on 22 Mar 2013 at 6:50Attachments: