HSE-projects / logical_reasoning

Logical Reasoning of Transformers
0 stars 0 forks source link

Articles Review Vadim #1

Open Aktsvigun opened 3 years ago

jattilainen commented 3 years ago

Explaining Contextualization in Language Models using Visual Analytics

https://aclanthology.org/2021.acl-long.39.pdf

Авторы рассматривают контекстуализацию эмбеддингов Берта (насколько эмбеддинги зависят от контекста) с помощью метрики Self-Similarity:

image

Эта метрика была представлена в статье 2019 года и там были получены следующие результаты:

image

Авторы данной статьи же решили пойти дальше и рассмотрели self-similarity по отдельным словам:

image

И выделили закономерности, какие слова более контекстуализированы. Они сопоставили контекстуализированность Берта с ожидаемой контекстуализированностью исходя из теории лингвистики:

image

Получили что некоторые категории Берт недостаточно контекстуализирует. Интересно, что это все слова, у которых мало смыслов, но они могут появляться в разных контекстах. Также авторы сделали забавное наблюдение "Overall, BERT seems to follow findings of psycholinguistics and language acqui- sition: children learn content words easier and ear- lier than function words"

P. S. Также авторы предложили красивый способ визуализировать эмбеддинги Берта, но это не особо вписывается в канву рассказа.

image
jattilainen commented 3 years ago

Is Sparse Attention more Interpretable?

https://aclanthology.org/2021.acl-short.17.pdf

Сначала блок про интерпретацию LM в целом. Мы хотим найти входы, которые сильнее всего на выход. Это можно сделать двумя способами (самые популярные, но есть и другие):

image image

Также авторы рассказывают, что такое sparse attention. Вместо софтмакс в атеншне можно считать sparsemax:

image

Казалось бы, что sparsemax должен оставить только самые важные токены, но проблема в том, что он прорежает уже промежуточный слой, а мы хотим интерпретировать какие входы сильнее всего влияют на результат. Авторы исследовали эту проблему и показали, что промежуточные слои плохо коррелируют с соответствующими входными эмбеддингами.

Для начала они померили нормализованную энтропию чисел, которые показывают как вход влияет на промежуточный эмбеддинг (по формуле с предыдущей картинки), энтропия 1 означала бы что все входы влияют одинаково, энтропия 0 - что влияет только один вход. Получили числа близкие к 1.

image

Далее они смотрят на энтропию распределений значений FI по всем входам (энтропия максимальна на равномерном распределении). Если бы sparrse attention помогал лучше интерпретировать модель, то FI становилось бы менее равномерным, более сконцентрированным в каких-то входах, то есть энтропия бы уменьшалась. Но она остается достаточно высокой:

image

Напоследок, авторы смотрят на корреляцию собственно атеншна и значений FI (ходят слухи, что аттеншн можно интерпретировать и большое значение аттеншна для слова значит большой FI этого слова). И оказывается, что по мере увеличения разрежённости аттеншна, корреляция падает.

image

На самом деле, как указывают авторы, низкая корреляция не означает, что аттеншн нельзя интерпретировать, потому что наша метрика FI тоже не золотой стандарт интепретируемости, но график наводит на мысль, что sparse attention в целом мешает интерпретируемости.

jattilainen commented 2 years ago

Out of Order: How Important Is The Sequential Order of Words

in a Sentence in Natural Language Understanding Tasks? https://arxiv.org/pdf/2012.15180.pdf

Авторы экспериментируют с задачами из GLUE и перестановкой слов в предложении. Сначала подробно описан метод перестановки слов и выбора предложений, но там ничего особенного -- выбрали предложения, где модель раньше угадывала и переставляют униграмы, биграмы и триграмы в случайном порядке (три разных запуска эксперимента).

Дальше проводится 5 экспериментов:

  1. How much is word order information required for solving GLUE tasks? Авторы используют метрику Word-Order Sensitivity score (WOS): s = (100 − p)/(100 − b) ,где p - точность модели на пошафленных данных, а b = 50, мотивируя это тем, что если бы порядок слов был важен, то с рандомным порядком слов точность была бы 50, а этот скор был бы 1.

Результаты в табличке: image Сильное ухудшение только у CoLA, но это задача собственно распознавания грамматически неверных предложений

  1. How sensitive are models trained to predict the similarity of two sentences?

Рассматриваются модели, обученные на задачи QQP and STS-B. Они тоже оказываются нечувствительны к шафлу слов:

image

  1. How important are words to classification after their context is shuffled?

Авторы используют LIME для интерпретации и получения весов отдельных токенов, и получают, что после шафла веса слов почти не меняются для всех задач кроме CoLA и RTE. Они предполагают, что контекстуализация эмбеддингов сильно падает после дообучения на GLUE

4 If not word order, then what do classifiers rely on to make correct predictions?

Получили, что для SST-2 модель опирается на отдельные слова image

Для задачи QNLI нашли 15 голов, которые матчат похожие слова. image (В прямоугольники выделены слова, которые имеют наибольший вес в одной из этих голов)

3.5 Does increasing word-order sensitivity lead to higher model performance?

Дообучили сначала модель на синтетическую задачу классификации фейковых предложений (где два слова случайным образом поменяны местами), а потом уже дообучали на задачи из GLUE, только сбросив слой классификатора. Получили результаты превосходящие обычный файнтюн и с лучшим значением WOS.

image