Open konstantin-smith opened 8 years ago
1) да 2) да, но не 1 к 1, а компаратором для второй дорожки. 3) недоразметили. Сделаем всем текстам эту разметку. 4) ошибка. исправлю в разметке. 5) вместе с компаратором для второй дорожки добавим.
Понятно, то есть пока всё более-менее готово для 1-й дорожки, 2-я ожидается.
Да. Демосет для первой дорожки ещё дополним. Там ещё есть размеченные, но не отмодерированные документы.
Извиняюсь за настырность, сверим алгоритм компаратора дорожки 1.
Запись .task1
cc @StanDzh: Стас, выходи обсуждать компаратор!
Есть некоторые ошибка в коллекции (и грамматическая и фактическая): loc_name "агенству" в "Бхутто заявила по телефону агенству France-Presse"
еще вопросы: 1) "ё" учитывается? 2) в коллекции есть слова с прописной буквы, которые обозначены как org_name, например, израильского правительства администрация американском музее аэронавтики палаты представителей жюри « Новой волны - 2009 » ленинградского « Телевизора » и пр.
Добрый день
@konstantin-smith: Да, если я правильно понял вопрос, сравнение эталона с тестом происходит именно так.
иначе: вопрос в том, почему "израильское правительство" org_name , а "японское правительство" org_descr ? Они чем-то отличаются?
@asolov , спасибо за замечания!
Отвечаю подробно:
Про "Ё": мы предполагаем, что текстовые строки в результатах работы систем участников соревнования взяты из исходного текста. В некоторых случаях мы ожидаем, что эти строки будут нормализованы.
Правильно ли я понимаю, что вопрос о том, нужно ли проставлять или удалять "Ё" при нормализации?
attn @StanDzh: что ты делаешь с "Ё" в компараторе?
@asolov
Про подробности разметки:
При формулировании правил разметки нам нужно было решить, где провести границу. Крайние точки были такие:
Выбранное правило для организаций ближе ко второму, чем к первому: "Как организацию нужно размечать любую сущность, которая может быть местом работы человека или в ней можно состоять в качестве члена." Мы приняли такое решение потому, что поверх разметки организаций мы делаем разметку фактов "работа" и "владение", а там нужны эти объекты, даже если у них нет имени.
Однако от участников не требуется выделять безымянные организации. Т.е. если в тексте написано "администрация", "школа" и не указано ничего больше, то в эталонной разметке эти слова должны быть выделены спаном org_descr и упоминанием объекта типа Org. На данный момент компаратор не должен штрафовать в первой и второй дорожках за невыделение организаций, которые в эталонной разметке содержат только спаны org_descr.
Если вместе с дескриптором организации указана "вышестоящая организация", относящаяся к этой безымянной организации как целое к части, то разметка выглядит так:
org_descr(D) org_name(N) Org( org_name(N) ) Org( org_descr(D) org_name(N) )
Вместо "вышестоящей организации" может быть локация.
Такими примерами являются "администрация Кремля", "правительство Израиля". За отсутствие таких объектов в первой и второй дорожке компаратор должен штрафовать.
Пример из текста #301 "израильского правительства" кажется очень похожим на "правительство Израиля". Поэтому его хочется разметить аналогично. Но мы не размечаем прилагательные ("израильский", "японский", "московский") как объекты. "правительство" мы отметили как org_descr. Чтобы создать упоминание типа Org нужен ещё один спан, охватывающий всё название целиком. Сейчас ставится org_name.
Насчёт буквы Ё так ничего внятного и не сказано. Например, для текста "спросили Петра Иванова" атрибут name должен быть "Пётр" или "Петр"? Или оба варианта правильные? Как будет проверяться? Регистр букв вроде обещали не проверять, так?
Спасибо за ответы.
Пример из текста #301 "израильского правительства" - можно пояснить еще раз: какая из разметок корректная: 27765 org_descr 1953 22 291493 2 # 291493 291494 японское правительство и 27843 org_name 1242 26 293882 2 # 293882 293883 израильского правительства
следующие сущности, как мне кажется, так же ogr_descr: 22795 org_name 1451 21 144007 2 # 144007 144008 московского отделения по аналогии с 27638 org_descr 71 17 274958 2 # 274958 274959 московского клуба
28168 org_name 614 37 316271 5 # 316271 316272 316273 316274 316275 отдела корпоративных серверов и сетей 28169 org_name 652 2 316276 1 # 316276 HP
Добрый день
О букве 'Ё': ответы "Петр" и "Пётр" полностью равнозначны. Это можно гарантировать на этапе компаратора, просто заменив все "ё" на "е" как в эталоне, так и в тесте. Аналогично с регистром.
@vbocharov, все правильно? Или мы все же хотим проверять регистр букв после нормализации?
это, видимо, ошибка: 22748 org_name 392 3 141410 1 # 141410 КНР в 141409 379 12 Председатель 141410 392 3 КНР 141411 396 2 Ху 141412 399 8 Цзиньтао "председатель" никак не размечен.
27632 org_name 330 11 273079 2 # 273079 273080 Спейс шаттл 27633 org_descr 319 9 273077 1 # 273077 Программа
26216 org_descr 124 17 210372 2 # 210372 210373 Национальный банк 26217 loc_name 142 7 210374 1 # 210374 Украины
182437 45 6 пилота 182438 52 9 Формулы-1
169441 661 10 Российские 169442 672 6 власти Российские - гео? - не размечено
144065 1808 11 Химкинского 144066 1820 4 леса Химкинского - гео? - не размечено
Скажите, играет роль последовательнсоть указания сущностей в результирующем файле? Т.е. можно ли сначала в файле будет все персоны, потом locations и т.д.?
@StanDzh всё так. Не хотим проверять регистр вообще. Пусть будут равнозначны.
@olgakanishcheva последовательность сущностей в файле не имеет значения.
1) Правильно ли я понял, что формат результата описан в документе версии 1 от 24.12.2015 как файлы .task1, .task2 и .task3? 2) По поводу 2-й дорожки - результат будет сравниваться с данными из файлов .coref? 3) Почему из 57 текстов только 3 имеют coref, это намеренно? 4) В документации имя атрибута "имя персоны" задано как Firstname, а в coref - name, так какое правильно? Есть где-нибудь просто список корректных имён атрибутов? 5) Можете предоставить хотя бы для одного относительно большого текста пример файла .task2, чтобы там по возможности присутствовали все 3 типа объектов? Спасибо!