-
## 論文リンク
https://arxiv.org/abs/1702.01802
## 概要
NMTで知識蒸留を行った論文
## 手法のキモ
- *初期値のみ異なる複数の教師NMTモデルの**出力確率分布の平均**を用いて知識蒸留を行う
- 教師NMTモデルのビームサーチによる**候補文から正解文にBLEUスコアが近い文を教師文**とする知識蒸留を行う
- 学習…
-
I've been reviewing tensorflow recently and wanted to share this idea. It is most likely not suitable for this repo/ but not sure a better place to log this.
At the essence, think of one day transl…
-
## 0. Paper
@inproceedings{luong-etal-2015-effective,
title = "Effective Approaches to Attention-based Neural Machine Translation",
author = "Luong, Thang and
Pham, Hieu and
…
a1da4 updated
4 years ago
-
### Metadata
- Authors: Lijun Wu, Fei Tian, Tao Qin, Jianhuang Lai and Tie-Yan Liu.
- Organization: MSRA
- Conference: EMNLP 2018
- Paper: https://arxiv.org/pdf/1808.08866.pdf
-
## 論文リンク
https://www.aclweb.org/anthology/P19-1425/
## 公開日(yyyy/mm/dd)
2019/07
## 概要
encoder への入力と decode への入力の両方で adversarial training を適用して機械翻訳の性能を高めたという論文。
単語置き換えをベースに adversarial trainin…
-
[paper](https://arxiv.org/pdf/1909.03341.pdf)
**problem :** multi-lingual 셋팅에서 BPE를 하면, 잘 나오지 않는 캐릭터들 때문에 vocab수를 잡아먹는다. 중국어의 경우에는 글자가 다른 글자의 일부인 경우도 있는데(虫, 蟲), 캐릭터 레벨에서는 이러한 관계를 알기 어렵다.
**solut…
-
- https://arxiv.org/abs/2110.05448
- 2021
本稿では、生成的に事前学習された言語モデルから、最先端の教師なしニューラル機械翻訳システムを導き出す方法を示す。
本手法は、少数ショット増幅、蒸留、逆翻訳の3つのステップで構成される。
まず、大規模な事前学習済み言語モデルのゼロショット翻訳能力を利用して、ラベルのない小さな文のセットに対する翻訳を生成し…
e4exp updated
2 years ago
-
Within "evaluation metrics", talk about how ROUGE is not really intended for machine translation, and the pitfalls thereof.
https://stats.stackexchange.com/questions/301626/interpreting-rouge-score…
-
## 简介
Finetune for domain adaptation/multilingual NMT. 方法感觉很简单粗暴啊,以domain adaptation为例,传统的finetune需要为每一个in-domain单独训练一个模型,很麻烦。文章的思路是为每个in-domain在base model基础上增加一个小的module,这个module每个领域是独有的,且capacity可以…
-
## 简介
跟mutual learning差不多,不一样的是mutual learning是many-to-many的学,这里是先通过many构造出一个ensemble model,再用这个ensemble去教many。教的过程用了根据teacher是否足够好进行自适应的distillation,也是很常见的操作。
## 论文信息
* Author: Baidu
* [Paper](…