Open Aktsvigun opened 3 years ago
Alignment Rationale for Natural Language Inference
https://aclanthology.org/2021.acl-long.417.pdf
Хотят находить объяснение модели (attention-based) в виде множества пар слов из посылки и гипотезы со следующими условиями: выбранных пар достаточно для предсказания, для каждой пары человеку понятна логика.
Хотят найти матрицу-маску Z, которая минимизирует сумму трёх лоссов. 1) Вторая норма разности обычных logits и их же при применении маски Z. 2) Просто первая норма маски Z. 3) Сумма индикаторов по окнам 2х2, что в окне есть ровно 3 единицы. Смысл в том, что хотят иметь прямоугольники в матрицу, вместо набора любых фигур. Картинка ожидаемого результата:
Итог: могут объяснять логику трансформеров лучше, чем аналоги 1) автоматическая оценка Правильность с помощью первого лосса Читаемость с помощью других двух
2) ручная "We let 2 annotators to rate how easy the explanation is to read and understand the model’s decision-making process along alignments from 1 to 5 points"
https://arxiv.org/pdf/2107.00440.pdf CLINE: Contrastive Learning with Semantic Negative Examples for Natural Language Understanding Задачи: sentiment analysis и NLI Изучают свойство, что замены пары слов сильно меняет как выход модели, так и верный ответ.
adversarial examples - изменение примеров без потери смысла contrastive examples - с потерей смысла / изменением на противоположный
"can we train a BERT that is both defensive against adversarial attacks and sensitive to semantic changes by using both adversarial and contrastive examples?"
Метод Строят x_syn и x_ant x_syn - 40% токенов меняют (synonyms, hypernyms and morphological changes) x_ant - 20% токенов меняют (antonyms and random words)
Задачи для обучения Masked Language Modeling Objective Replaced Token Detection Objective предсказываем x_syn и s_ant Contrastive Objective
Обучение Обучали много моделей, взяли лучшую по contrastive test set
https://arxiv.org/pdf/2108.01589.pdf ExBERT: An External Knowledge Enhanced BERT for Natural Language Inference
Задача NLI External Knowledge Retrieval: Selection and Ranking
Далее процедура как находят информацию релевантную premise (то же самое для hypothesis) Selection 1)фильтруют стоп слова в premise 2)извлекают KG triples, которые содержат токены из premise токен “speaking” -> тройка “public speaking IsA speaking” 3)переводят тройку в предложение -> “public speaking is a speaking” Ranking 1)BERT generated context-aware representation 2)Берут все биграммы, для каждой считают вектор, сравнивают по cosine similarity его с вектором каждой тройки (предложения). Далее для каждой биграммы выбрали лучшую тройку. Тоже самое для 3, 4-грамм. Получили итоговое множество троек.
Модель BERT Encoding Layer одна посылка и много гипотез знания всё это сложили в матрицу
Knowledge Integration Layer means of multi-head dot product attention
Multi-head Attentions 12 голов аттеншенов для матриц первого шага
Mixture Model A и B обучаемые матрицы
Composition Layer
Pooling Layer
Classification Layer
Обучаем сеть end-to-end на multi-class cross-entropy loss
Результаты
UnNatural Language Inference
https://aclanthology.org/2021.acl-long.569.pdf
Natural language inference (NLI) Если посылка и гипотеза, выдаём один из трёх варинантов: true (entailment), false (contradiction), undetermined (neutral).
О чём? Берут sota модели (в основном трансформеры, но не только их) для NLI и показывают, что у всех есть беды с порядком слов в предложении, а именно: модели могут выдавать очень разные результаты на перестановках слов.
1) maximum-accuracy - считают q случайных перестановок входного предложения, на каждой применяют модель и дальше ответ на примере верный, если хотя бы одна перестановка дала верный ответ. При q = 100 качество sota моделей в может сильно повышаться (In case of MNLI, for example, the current state-of-the-art of 90.5% can be increased to 98.7%). Тут смысл был в том, что мы хотим сделать модель более близкой к логике человека, поэтому нужно, что она не выдавала хороших результатов на перестановках предложений, а метрики показывают обратное.
2) random baseline accuracy - аналогично предыдущей метрике, но итоговый ответ верный, если хотя бы треть ответов на перестановках верная. Тут качество тоже достаточно высокое
3) Судя по вероятностям модели (особенно трансформеры) очень уверенны в своём ответе на перестановках.
Итог: sota модели не знают синтаксис языка, от которого зависит логика.
Как улучшить? Добавляют максимизацию энтропии: к лоссу прибавляют энтропию на перестановках.
Получили, что точность повысилась, а вот maximum-accuracy стала около 0.33 как и хотелось.