Open tm4roon opened 4 years ago
出力制御可能な言語モデルを提案。ドメインを表すラベル(Wikipedia, Book, Legal, ...)を先頭に付与することによって、出力制御可能な言語モデルの学習を行う。生成時には、ラベルとプロンプト(文書の書き出しの数単語)を入力し、次の単語を順次生成する。 このとき、温度付きソフトマックスによりサンプリングを行う。また、単語の繰り返し生成を抑制するため、coverage mechanismを取り入れている。
ドメインを表すラベル以外にも、次のようにラベルとプロンプトを入力することにより、質問応答や翻訳タスクを行うことも可能である。
CTRL: A Conditional Transformer Language Model for Controllable Generation
出力制御可能な言語モデルを提案。ドメインを表すラベル(Wikipedia, Book, Legal, ...)を先頭に付与することによって、出力制御可能な言語モデルの学習を行う。生成時には、ラベルとプロンプト(文書の書き出しの数単語)を入力し、次の単語を順次生成する。 このとき、温度付きソフトマックスによりサンプリングを行う。また、単語の繰り返し生成を抑制するため、coverage mechanismを取り入れている。
ドメインを表すラベル以外にも、次のようにラベルとプロンプトを入力することにより、質問応答や翻訳タスクを行うことも可能である。
文献情報