-
## 論文リンク
https://arxiv.org/abs/1907.11692
## 公開日(yyyy/mm/dd)
2019/07/26
## 概要
BERT の事前学習を様々な観点から検証・実験して original の BERT が undertrained であることを発見し、optimize して学習した結果、XLNet など BERT 以降に提案されたモデルと同等…
-
提问时请尽可能提供如下信息:
进程已结束,退出代码为 -1073741819 (0xC0000005)
### 基本信息
- 你使用的**操作系统 windows**:
- 你使用的**Python**版本: Python3.6
- 你使用的**tensorflow **版本: tensorflow 1.15.0
- 你使用的**Keras**…
-
### Feature request
Flash Attention 2 is a library that provides attention operation kernels for faster and more memory efficient inference and training: https://github.com/Dao-AILab/flash-attentio…
-
Hi, for model big as 7GB, does transformers support export to onnx?? Any tutorial about big model?
-
提问时请尽可能提供如下信息:
### 基本信息
- 你使用的**操作系统**: win11
- 你使用的**Python**版本:
- 你使用的**Pytorch**版本: 1.8.2+cu111
- 你使用的**bert4torch**版本: 0.2.8
- 你加载的**预训练模型**:chinese-bert-wwm-ext
### 核心代码
```python
…
-
Hi,
I tried to further pretrain XLNet in domain specific corpus like what is recommanded in BERT. But I got worse result. Has anyone tried further pretraining? Does it work?
Thanks!
-
你好, 由于我现在暂时沒有计算资源,无法支撑模型训练, 但我想看一下这个模型能达到的效果。因为我看网上中文多篇章MRC的代码实现较少,若是您的模型效果比较理想,希望能借鉴下您的框架。请问您方便提供您已经训练好的模型参数文件让我稍微尝试一下么?谢谢。
-
Post questions here for this week's exemplary readings: 2. Hamilton, William H., Jure Leskovec, Dan Jurafsky. 2016. “Diachronic Word Embeddings
Reveal Statistical Laws of Semantic Change.” arXiv pre…
-
I wanted to test the paddlespeech repo to clone a voice . My target text is english. (is that possible?)
Here are the steps that ive taken.
- cloned the repo (` /mnt/msd/users/arnav/ ` is my works…
-
I am generating pre training data for hindi, I am using sentence piece vocab for it. Getting the following error.
```
python build_pretraining_dataset.py --corpus-dir data --vocab-file spie
ce.voca…