Open AkihikoWatanabe opened 3 years ago
Knowledge Tracingタスクに初めてself-attention layerを導入した研究
interaction (e{t}, r{t}) および current exercise (e_{t+1}) が与えられた時に、current_exerciseの正誤を予測したい。
interactionからKey, Valueを生成し、current exerciseからQueryを生成し、multi-head attentionを適用する。その後、得られたcontext vectorをFFNにかけて、正誤を予測する。
DKTや、DKVMNを全てのデータセットでoutperform
Large ScaleなデータだとSAKTが強いが、Large Scaleなデータでなければあまり強くないということだと思われる。 Large Scaleの基準は、なかなか難しいが、1億Interaction程度あれば(EdNetデータ)SAKTの方が優位に強くなりそう。 数十万、数百万Interaction程度のデータであれば、DKTとSAKTはおそらくcomparableだと思われる。
(追記) しかし #456 においてはSAKTはEdNetデータセット(Large Scale)においてDKT, DKT+, DKVMNとcomparableなので、 正直何を信じたら良いか分からない。
https://arxiv.org/pdf/1907.06837.pdf