-
The ERROR happened during task-specific distill, Traceback is in the END. Fine-turn Bert model was generated using [transformer package](https://github.com/huggingface/transformers#quick-tour-of-the-f…
-
Initialize PyTorch weight ['bert', 'encoder', 'layer_9', 'attention', 'self', 'key', 'bias']
Initialize PyTorch weight ['bert', 'encoder', 'layer_9', 'attention', 'self', 'key', 'kernel']
Initialize…
-
Looking at Eq 7-9 in the paper (https://arxiv.org/pdf/1909.10351.pdf) and assuming that the student and teacher models have the same dimensionality (i.e. d=d') then how is TinyBert any different (bett…
-
I'm running a search using DensePassageRetriever.
It takes 10+ seconds to run each query. The message I'm shown is "Creating Embeddings".
I'm confused because the embeddings for my documents are…
-
1. 预训练蒸馏只有attention和encoder_layer loss, 好像没有mask lm的loss?
2. 如果没有mask lm的loss, 怎么直接测试蒸馏好的小模型效果?
-
Hi, I used the default hyper-parameter in TinyBERT repo, and the result on RTE is 30.7 on dev, and 28.6 on test, much far from the results in the paper. So will you please share the hyper-parameter f…
-
1、请问什么时候发布TinyBert中文模型呢?
2、如果没有general distill阶段,直接随机化参数进行task-specific,不知道效果如何(这样的话大概需要什么量级的数据量)?
-
原始的教师网络通过fine-tune后的准确率大概在93%,使用大量未打标签数据输入到教师网络获取打标签数据,将这些数据输入到四层的bert(作为学生网络)中训练,以下两种情况:
(1)未添加中间层loss(atten、embebeding、encoder等),仅仅采用学生的硬标签作为loss,准确率为89%;
(2)添加中间层loss蒸馏,准确率为90%。
这说明中间层loss对…
-
我看模型文件都是 pytorch的,就想问问能不能把tensorflow版本的也帮忙训一下,谢谢!
-
提问时请尽可能提供如下信息:
### 基本信息
- 你使用的**操作系统**: linux
- 你使用的**Python**版本: python3.7
- 你使用的**Tensorflow**版本: 1.14
- 你使用的**Keras**版本: 2.2.5
- 你使用的**bert4keras**版本: 0.4.3
- 你使用纯**keras**还是**tf.keras**:…