konstantin-smith commented 8 years ago

1) Правильно ли я понял, что формат результата описан в документе версии 1 от 24.12.2015 как файлы .task1, .task2 и .task3? 2) По поводу 2-й дорожки - результат будет сравниваться с данными из файлов .coref? 3) Почему из 57 текстов только 3 имеют coref, это намеренно? 4) В документации имя атрибута "имя персоны" задано как Firstname, а в coref - name, так какое правильно? Есть где-нибудь просто список корректных имён атрибутов? 5) Можете предоставить хотя бы для одного относительно большого текста пример файла .task2, чтобы там по возможности присутствовали все 3 типа объектов? Спасибо!

vbocharov commented 8 years ago

1) да 2) да, но не 1 к 1, а компаратором для второй дорожки. 3) недоразметили. Сделаем всем текстам эту разметку. 4) ошибка. исправлю в разметке. 5) вместе с компаратором для второй дорожки добавим.

konstantin-smith commented 8 years ago

Понятно, то есть пока всё более-менее готово для 1-й дорожки, 2-я ожидается.

vbocharov commented 8 years ago

Да. Демосет для первой дорожки ещё дополним. Там ещё есть размеченные, но не отмодерированные документы.

konstantin-smith commented 8 years ago

Извиняюсь за настырность, сверим алгоритм компаратора дорожки 1. Запись .task1 проверяется на соответствие записи из .objects, в которой во 2-м столбце тип (Location=LOC, Person=PER, Org=ORG), а в 3-м столбце один или несколько id атрибутов из .spans. У этих записей .spans берутся смещения и длины из 2-го и 3-го столбцов, POS сравнивается со смещением первого атрибута, POS + LEN - с суммой смещения и длины последнего атрибута. Позиции начинаются с 0 (первый символ текста). Так?

vbocharov commented 8 years ago

cc @StanDzh: Стас, выходи обсуждать компаратор!

asolov commented 8 years ago

Есть некоторые ошибка в коллекции (и грамматическая и фактическая): loc_name "агенству" в "Бхутто заявила по телефону агенству France-Presse"

asolov commented 8 years ago

еще вопросы: 1) "ё" учитывается? 2) в коллекции есть слова с прописной буквы, которые обозначены как org_name, например, израильского правительства администрация американском музее аэронавтики палаты представителей жюри « Новой волны - 2009 » ленинградского « Телевизора » и пр.

часть из них пересекаются с org_descr. Это ошибки или так задумано?

StanDzh commented 8 years ago

Добрый день

@konstantin-smith: Да, если я правильно понял вопрос, сравнение эталона с тестом происходит именно так.

asolov commented 8 years ago

иначе: вопрос в том, почему "израильское правительство" org_name , а "японское правительство" org_descr ? Они чем-то отличаются?

vbocharov commented 8 years ago

@asolov , спасибо за замечания!

Отвечаю подробно:

Про "Ё": мы предполагаем, что текстовые строки в результатах работы систем участников соревнования взяты из исходного текста. В некоторых случаях мы ожидаем, что эти строки будут нормализованы.

Правильно ли я понимаю, что вопрос о том, нужно ли проставлять или удалять "Ё" при нормализации?

attn @StanDzh: что ты делаешь с "Ё" в компараторе?

vbocharov commented 8 years ago

@asolov

Про подробности разметки:

324: (агенство) сменил тип спана. Это текст из Викиновостей. Опечатка в нём была с самого начала. Их мы сознательно не исправляем.

247: (администрация) сменил тип спана.

При формулировании правил разметки нам нужно было решить, где провести границу. Крайние точки были такие:

выделять строго имена собственные (у государственных организаций их часто нет)
выделять значимые для текста сущности вне зависимости от того, какими словами они обозначены (это интереснее с практической точки зрения)

Выбранное правило для организаций ближе ко второму, чем к первому: "Как организацию нужно размечать любую сущность, которая может быть местом работы человека или в ней можно состоять в качестве члена." Мы приняли такое решение потому, что поверх разметки организаций мы делаем разметку фактов "работа" и "владение", а там нужны эти объекты, даже если у них нет имени.

Однако от участников не требуется выделять безымянные организации. Т.е. если в тексте написано "администрация", "школа" и не указано ничего больше, то в эталонной разметке эти слова должны быть выделены спаном org_descr и упоминанием объекта типа Org. На данный момент компаратор не должен штрафовать в первой и второй дорожках за невыделение организаций, которые в эталонной разметке содержат только спаны org_descr.

Если вместе с дескриптором организации указана "вышестоящая организация", относящаяся к этой безымянной организации как целое к части, то разметка выглядит так:

org_descr(D) org_name(N) Org( org_name(N) ) Org( org_descr(D) org_name(N) )

Вместо "вышестоящей организации" может быть локация.

Такими примерами являются "администрация Кремля", "правительство Израиля". За отсутствие таких объектов в первой и второй дорожке компаратор должен штрафовать.

Пример из текста #301 "израильского правительства" кажется очень похожим на "правительство Израиля". Поэтому его хочется разметить аналогично. Но мы не размечаем прилагательные ("израильский", "японский", "московский") как объекты. "правительство" мы отметили как org_descr. Чтобы создать упоминание типа Org нужен ещё один спан, охватывающий всё название целиком. Сейчас ставится org_name.

263: (американский музей аэронавтики). Проверил по Википедии. Это не название музея (Национальный музей авиации и космонавтики). Переставил тип спана на org_descr. Теперь за его отсутствие не компаратор не должен штрафовать.

252: (палаты представителей). Это название организации. Это словосочетание в тексте встречается 5 раз, но только один с маленькой буквы. Кажется, что ошибка в капитализации не должна быть причиной того, что мы эту организацию не выделяем.

314: (жюри "Новой волны - 2009"). В идеале надо было бы отметить "Новой волны - 2009" каким-то другим типом спана, т.к. это не организация, а название события (сам по себе конкурс и другие подобные объекты мы не размечали никак). Сейчас не очень логично, но непонятно как сделать лучше.

270: (ленинградского "Телевизора"). Размечено как два org_name, входящие в один Org, для того, чтобы компаратор признал правильными ответами как ["Телевизора"], так и [ленинградского "Телевизора"].

konstantin-smith commented 8 years ago

Насчёт буквы Ё так ничего внятного и не сказано. Например, для текста "спросили Петра Иванова" атрибут name должен быть "Пётр" или "Петр"? Или оба варианта правильные? Как будет проверяться? Регистр букв вроде обещали не проверять, так?

asolov commented 8 years ago

Спасибо за ответы.

314: (жюри "Новой волны - 2009"). - это, безусловно, событие - "Новой волны - 2009" - его нет смысла размечать, это отдельный тип сущности. В таком случае еще вопрос: "Кубок Кремля" в вашей разметке будет org, geo или не будет размечаться?

Пример из текста #301 "израильского правительства" - можно пояснить еще раз: какая из разметок корректная: 27765 org_descr 1953 22 291493 2 # 291493 291494 японское правительство и 27843 org_name 1242 26 293882 2 # 293882 293883 израильского правительства

следующие сущности, как мне кажется, так же ogr_descr: 22795 org_name 1451 21 144007 2 # 144007 144008 московского отделения по аналогии с 27638 org_descr 71 17 274958 2 # 274958 274959 московского клуба

28168 org_name 614 37 316271 5 # 316271 316272 316273 316274 316275 отдела корпоративных серверов и сетей 28169 org_name 652 2 316276 1 # 316276 HP

здесь первая часть так же org_descr?

StanDzh commented 8 years ago

Добрый день

О букве 'Ё': ответы "Петр" и "Пётр" полностью равнозначны. Это можно гарантировать на этапе компаратора, просто заменив все "ё" на "е" как в эталоне, так и в тесте. Аналогично с регистром.

@vbocharov, все правильно? Или мы все же хотим проверять регистр букв после нормализации?

asolov commented 8 years ago

это, видимо, ошибка: 22748 org_name 392 3 141410 1 # 141410 КНР в 141409 379 12 Председатель 141410 392 3 КНР 141411 396 2 Ху 141412 399 8 Цзиньтао "председатель" никак не размечен.

asolov commented 8 years ago

27632 org_name 330 11 273079 2 # 273079 273080 Спейс шаттл 27633 org_descr 319 9 273077 1 # 273077 Программа

название программы не может быть организацией;

26216 org_descr 124 17 210372 2 # 210372 210373 Национальный банк 26217 loc_name 142 7 210374 1 # 210374 Украины

в данном случае это org_name , т.к. название организации

asolov commented 8 years ago

182437 45 6 пилота 182438 52 9 Формулы-1

Формула-1 в данном контексте организация - не размечено

169441 661 10 Российские 169442 672 6 власти Российские - гео? - не размечено

144065 1808 11 Химкинского 144066 1820 4 леса Химкинского - гео? - не размечено

olgakanishcheva commented 8 years ago

Скажите, играет роль последовательнсоть указания сущностей в результирующем файле? Т.е. можно ли сначала в файле будет все персоны, потом locations и т.д.?

vbocharov commented 8 years ago

@StanDzh всё так. Не хотим проверять регистр вообще. Пусть будут равнозначны.

vbocharov commented 8 years ago

@olgakanishcheva последовательность сущностей в файле не имеет значения.

dialogue-evaluation / factRuEval-2016

Формат результата - вопросы #9

324: (агенство) сменил тип спана. Это текст из Викиновостей. Опечатка в нём была с самого начала. Их мы сознательно не исправляем.

247: (администрация) сменил тип спана.