Closed Sergey5599 closed 4 years ago
Для нетерминала Company_form - леммы укажите строчными буквами:
Company_form -> 'зао' | 'ооо' | 'пао';
Спасибо!
Огромная просьба помочь с еще одним вопросом. Ищем суммы с рублями и копейками.
Rub_txt -> 'рубль' | 'руб';
Cop_txt -> 'копейка'|'коп';
Sum_rub -> AnyWord <wff=/\d*\s?/>+ Rub_txt;
Sum_cop -> AnyWord <wff=/\s*\d{2}\s?/> Cop_txt;
Sum_all -> Sum_rub | Sum_cop;
- по отдельности, все выводит
Sum_all -> Sum_rub Punct Sum_cop | Sum_rub AnyWord Sum_cop | Sum_rub Sum_cop;
- все вместе - нет!
Образец текста в первоначальном формате - "в размере 1642318 руб. 30 коп., в том числе 1475188 руб. 40 коп. основного долга, 118175 руб. 90 коп. пени и 48954 руб. 00 коп."
Вид текста в pretty.html - "в размере 1642318 руб . EOS 30 коп . , в том числе 1475188 руб . EOS 40 коп . основного долга , 118175 руб . EOS 90 коп . пени и 48954 руб . EOS 00 коп ."
Добрый день.
Обратите внимание в pretty на EOS
. Это показатель конца предложения.
Как с этим бороться - сказать парсеру не считать во входном тексте сокращения "руб." концом предложения, аналогичный вопрос ранее обсуждался https://github.com/yandex/tomita-parser/issues/46
спасибо!
Подскажите, пожалуйста, как/в каких случаях/для каких целях можно использовать терминал EOSent | Символ конца предложения?
Подскажите, пожалуйста, как/в каких случаях/для каких целях можно использовать терминал EOSent | Символ конца предложения?
Чтобы правило срабатывало только в конце предложения.
Грамматика вида
Company_form -> 'ЗАО' | 'ООО' | 'ПАО'; Company_full -> Companyform AnyWord <quoted>;
не выделяет в тексте компании с сокращенными названиями юр. форм <<о включении требования в реестр требований кредиторов должника
в рамках дела о несостоятельности (банкротстве) ЗАО «Содружество» .... >> При этом Companyfull -> AnyWord<quoted>; выделяет название компаний
Прошу подсказать почему? Прим. Подчеркивание после quoted_ - не ошибка, для отображения