Closed thousandvoices closed 4 years ago
Очень классно, я готов мёржить! Единственная штука, которую хочется проверить: стоит ли умножать счётчики на норму или на её квадрат? Я бы ещё с этим поэкспериментировал. Возможно, сделал бы степень, в которую возводится норма, числовым параметром.
С квадратом примерно то же самое получается (самую малость хуже). А параметр пусть будет.
Эти изменения позволяют учесть нормы векторов n-грамм при сокращении словаря.
При установке
prune_by_norm=True
метрики растут для всех моделей, которые я смотрел, поэтому он включен по умолчанию. У меня не хватило терпения проверить все 48 моделей, поэтому вот таблица со средними результатами evaluate_all моделей, которые получилось измерить: