Closed Azuk1 closed 3 years ago
hello,想问一下 以 ELECTRA-small:12-layer, 256-hidden, 4-heads, 12M parameters 为例,其中说到的共计12层 这12层是生成器和判别器的层数加起来还是他们之间单一的层数呢?
sorry 看了一下代码知道了,多谢~
hello,想问一下 以 ELECTRA-small:12-layer, 256-hidden, 4-heads, 12M parameters 为例,其中说到的共计12层 这12层是生成器和判别器的层数加起来还是他们之间单一的层数呢?