Improving language models by retrieving from trillions of tokens

一言でいうと

事前学習済み言語モデルをデータスケーラブルにする手法。文字列をchunkにわけ、chunk内のtokenを既出のtokenだけでなく一つ前のchunkをクエリとして得られるcontextに依存させる。contextのベクトル検索に使用するデータセットは学習データとは別に用意し拡大が可能で、これにより性能を向上できる。

論文リンク

https://arxiv.org/abs/2112.04426

著者/所属機関

Sebastian Borgeaud, Arthur Mensch, Jordan Hoffmann, Trevor Cai, Eliza Rutherford, Katie Millican, George van den Driessche, Jean-Baptiste Lespiau, Bogdan Damoc, Aidan Clark, Diego de Las Casas, Aurelia Guy, Jacob Menick, Roman Ring, Tom Hennigan, Saffron Huang, Loren Maggiore, Chris Jones, Albin Cassirer, Andy Brock, Michela Paganini, Geoffrey Irving, Oriol Vinyals, Simon Osindero, Karen Simonyan, Jack W. Rae, Erich Elsen, Laurent Sifre

arXivTimes / arXivTimes