PiRSquared17 / ooofbtools

Automatically exported from code.google.com/p/ooofbtools
0 stars 0 forks source link

Нет пробела после закрывающей кавчки #96

Closed GoogleCodeExporter closed 9 years ago

GoogleCodeExporter commented 9 years ago
После Корректора теста исчезают пробелы 
после закрывающей кавычки.
Конечно легко исправить через поиск и 
замену, но надоедает этот баг, еще с версии 
2.3 заметил.

Original issue reported on code.google.com by stv....@gmail.com on 22 Mar 2013 at 6:50

Attachments:

GoogleCodeExporter commented 9 years ago
Уточнение. Пробелы после кавычки “ нужны 
только если после нее идет буква, цифра или 
открывающая скобка ( если же идет знак 
препинания, то пробел не нужен.

Original comment by stv....@gmail.com on 22 Mar 2013 at 7:23

GoogleCodeExporter commented 9 years ago
Если после “ идет любая открывающая 
кавычка, то пожалуй тоже нужен пробел, но 
перед открывающей кавычкой он нужен в 
любом случае:) В общем, я не знаю насколько 
конкретные вам нужны советы:) Можно 
конкретные регэкспы обсудить если есть 
необходимость.

Original comment by stv....@gmail.com on 22 Mar 2013 at 7:39

GoogleCodeExporter commented 9 years ago
Проблема - перепутал местами открывающую 
кавычку лапку ( „ ) с закрывающей ( “ ).
Исправил.
Спасибо за сообщение.

Original comment by dik...@gmail.com on 25 Mar 2013 at 9:00

GoogleCodeExporter commented 9 years ago
Хотя - поспешил с ответом.
Ситуация с кавычками наблюдается только в 
опции Корректора Текста "Удалить пробелы 
внутри кавычек (« слово » -> «слово»)". Если 
ее отключить, то пробел не удаляется.
Вспомнил, что раньше я эту проблему уже 
рассматривал. Дело в том, что в вашем 
примере используются НЕМЕЦКИЕ 
кавычки-лапки. Закрывающая немецкая 
кавычка-лапка ( “ ) имеет такое же 
"начертание" и код (8220), что и открывающая 
АНГЛИЙСКАЯ кавычка-лапка ( “ )
См. http://ru.wikipedia.org/wiki/%D0%9A%D0%B0%D0%B2%D1%8B%D1%87%D0%BA%D0%B8
Как решить проблему - не знаю.
Выше написал, что исправил - переставил 
кавычки местами. Но тогда не будет работать 
отлов английских кавычек...
Если вы сможете составить регекс для 
удаления пробелов после открывающих 
кавычек ВСЕХ видов  ("«„“), и до закрывающих 
кавычек ВСЕХ видов ("»“”), и так, чтобы 
немецкая закрывающая лапка не путалась с 
английской открывающей - я буду очень 
признателен. В приведенных скобках - в 1-й 
скобке “ - это английская открывающая 
лапка, а во 2-й она же “ - немецкая 
закрывающая.

Original comment by dik...@gmail.com on 25 Mar 2013 at 9:17

GoogleCodeExporter commented 9 years ago
Кстати - эта же проблема возникает и при 
определении, чем является вот эта кавычка: " 
- открывающей или закрывающей? Код у нее 
один и тот же...

Original comment by dik...@gmail.com on 25 Mar 2013 at 9:32

GoogleCodeExporter commented 9 years ago
Мне кажется самым простым вариантом 
сделать отдельные опции: "обрабатывать 
английские кавычки" и "обрабатывать 
немецкие кавычки" или же сделать 
предварительный анализ текста на наличие 
парной кавычки которая может быть маркером 
присутствия в тексте немецких или 
английских кавычек.
Еще одна идея: у меня есть подозрение, что в 
старых русских книгах в основном 
используются немецкие лапки, и значит 
можно их связать с кириллицей, а английские 
с латиницей... но это надо проверять... Я 
честно говоря английские лапки не встречал 
еще в текстах русских книг.

Original comment by stv....@gmail.com on 25 Mar 2013 at 12:05

GoogleCodeExporter commented 9 years ago
Вообще, по вашей ссылке в википедии 
написано, что в русской типографике 
используются кроме ёлочек прежде всего 
немецкие лапки, и в таблице кодов кавычка с 
кодом 8220 помечена как закрывающая.

Original comment by stv....@gmail.com on 25 Mar 2013 at 12:41

GoogleCodeExporter commented 9 years ago
С определением принадлежности кавычки 
языку есть сложности - признак языка сложно 
идентифицировать для кавычки. С другой 
стороны, я видел много книг на русском с 
английскими лапками (хоть это и нарушение 
типографики). Потом, проблема с кавычкий 
вида " все еще остается - она и открывающая, 
и закрывающая одновременно...
Еще проблема в том, что Корректор заточен 
для корректировки И русских книг, И книг с 
латиницей. Если делать настройку ТОЛЬКО 
для русского текста, то это будет проблема 
для английского текста (локаль редактора 
тут не поможет - я обрабатывал английские 
книги на редакторе с русской локалью)...
Насчет "делать предварительный анализ 
текста на наличие парной кавычки которая 
может быть маркером присутствия в тексте 
немецких или английских кавычек". Думал в 
свое время над этим. Но алгоритм будет 
очень сложен, хотя дело даже не в этом. 
СКОРОСТЬ обработки будет настолько низкой, 
что...

На данный момент я не могу найти выход. 
Возможно, уже глаз "замылился". Если будут 
свежие идеи - раб буду их реализовать.

Original comment by dik...@gmail.com on 26 Mar 2013 at 6:18

GoogleCodeExporter commented 9 years ago
[deleted comment]
GoogleCodeExporter commented 9 years ago
Хорошо, я подумаю...
Возможно так и придётся поступить.

Original comment by dik...@gmail.com on 27 Mar 2013 at 8:35

GoogleCodeExporter commented 9 years ago
Есть идея: Из опции "Удаление пробелов 
внутри кавычек" удалить обработку 
немецких/английских лапок, а оставить одни 
"ёлочки". Не так часто встречаются книги, 
где между открывающейся лапкой и словом и 
закрывающейся словом и лапкой стоят 
пробелы.
Если сделать вышеописанное, то и 
пользователю не надо будет голову ломать, 
какие лапки выбрать (все равно, выбрав 
немецкие, потом придется вручную вставлять 
удалившиеся пробелы около английских 
лапок), и ошибочной корректуры не будет...

Original comment by dik...@gmail.com on 8 Apr 2013 at 9:32

GoogleCodeExporter commented 9 years ago
Тем более, что пробелы до/после кавычек 
появляются в основном после OCR - в набранном 
тексте их просто нет.
Наверное, я так и сделаю.

Original comment by dik...@gmail.com on 8 Apr 2013 at 9:36

GoogleCodeExporter commented 9 years ago
Круто было бы интегрировать в ваш пакет 
миникорректор 
http://wiki.i-rs.ru/wiki/RU/extensions/writer/minicorrector или 
сделать настройки замен как в нем в виде 
регэкспов. Там кстати все регэкспы 
привязаны к языковой локале и хранятся в 
отдельных файлах для каждого языка.

Original comment by stv....@gmail.com on 8 Apr 2013 at 1:58

GoogleCodeExporter commented 9 years ago
ИМнтересное расширение...
Боюсь, интегрировать его в OOoFBTools не 
получится по причине 1. Огромный объем 
работы. 2. Как-то неэтично будет.
На счет "все регэкспы привязаны к языковой 
локале" - надо будет посмотреть.
Спасибо.

Original comment by dik...@gmail.com on 9 Apr 2013 at 10:32

GoogleCodeExporter commented 9 years ago

Original comment by dik...@gmail.com on 21 Nov 2013 at 1:31