Articles Review Zakhar - Githubissues

UnNatural Language Inference

https://aclanthology.org/2021.acl-long.569.pdf

Natural language inference (NLI) Если посылка и гипотеза, выдаём один из трёх варинантов: true (entailment), false (contradiction), undetermined (neutral).

О чём? Берут sota модели (в основном трансформеры, но не только их) для NLI и показывают, что у всех есть беды с порядком слов в предложении, а именно: модели могут выдавать очень разные результаты на перестановках слов.

1) maximum-accuracy - считают q случайных перестановок входного предложения, на каждой применяют модель и дальше ответ на примере верный, если хотя бы одна перестановка дала верный ответ. При q = 100 качество sota моделей в может сильно повышаться (In case of MNLI, for example, the current state-of-the-art of 90.5% can be increased to 98.7%). Тут смысл был в том, что мы хотим сделать модель более близкой к логике человека, поэтому нужно, что она не выдавала хороших результатов на перестановках предложений, а метрики показывают обратное.

2) random baseline accuracy - аналогично предыдущей метрике, но итоговый ответ верный, если хотя бы треть ответов на перестановках верная. Тут качество тоже достаточно высокое

3) Судя по вероятностям модели (особенно трансформеры) очень уверенны в своём ответе на перестановках.

Итог: sota модели не знают синтаксис языка, от которого зависит логика.

Как улучшить? Добавляют максимизацию энтропии: к лоссу прибавляют энтропию на перестановках.

Получили, что точность повысилась, а вот maximum-accuracy стала около 0.33 как и хотелось.

Alignment Rationale for Natural Language Inference

https://aclanthology.org/2021.acl-long.417.pdf

Хотят находить объяснение модели (attention-based) в виде множества пар слов из посылки и гипотезы со следующими условиями: выбранных пар достаточно для предсказания, для каждой пары человеку понятна логика.

Хотят найти матрицу-маску Z, которая минимизирует сумму трёх лоссов. 1) Вторая норма разности обычных logits и их же при применении маски Z. 2) Просто первая норма маски Z. 3) Сумма индикаторов по окнам 2х2, что в окне есть ровно 3 единицы. Смысл в том, что хотят иметь прямоугольники в матрицу, вместо набора любых фигур. Картинка ожидаемого результата:

Итог: могут объяснять логику трансформеров лучше, чем аналоги 1) автоматическая оценка Правильность с помощью первого лосса Читаемость с помощью других двух

2) ручная "We let 2 annotators to rate how easy the explanation is to read and understand the model’s decision-making process along alignments from 1 to 5 points"

https://arxiv.org/pdf/2107.00440.pdf CLINE: Contrastive Learning with Semantic Negative Examples for Natural Language Understanding Задачи: sentiment analysis и NLI Изучают свойство, что замены пары слов сильно меняет как выход модели, так и верный ответ.

adversarial examples - изменение примеров без потери смысла contrastive examples - с потерей смысла / изменением на противоположный

"can we train a BERT that is both defensive against adversarial attacks and sensitive to semantic changes by using both adversarial and contrastive examples?"

Метод Строят x_syn и x_ant x_syn - 40% токенов меняют (synonyms, hypernyms and morphological changes) x_ant - 20% токенов меняют (antonyms and random words)

Задачи для обучения Masked Language Modeling Objective Replaced Token Detection Objective предсказываем x_syn и s_ant Contrastive Objective

Обучение Обучали много моделей, взяли лучшую по contrastive test set

https://arxiv.org/pdf/2108.01589.pdf ExBERT: An External Knowledge Enhanced BERT for Natural Language Inference

Задача NLI External Knowledge Retrieval: Selection and Ranking

Далее процедура как находят информацию релевантную premise (то же самое для hypothesis) Selection 1)фильтруют стоп слова в premise 2)извлекают KG triples, которые содержат токены из premise токен “speaking” -> тройка “public speaking IsA speaking” 3)переводят тройку в предложение -> “public speaking is a speaking” Ranking 1)BERT generated context-aware representation 2)Берут все биграммы, для каждой считают вектор, сравнивают по cosine similarity его с вектором каждой тройки (предложения). Далее для каждой биграммы выбрали лучшую тройку. Тоже самое для 3, 4-грамм. Получили итоговое множество троек.

Модель BERT Encoding Layer одна посылка и много гипотез знания всё это сложили в матрицу