-
## 一言でいうと
短い入力でTransformerの学習効率を上げる研究。短くてもOverwrapさせることで学習の速度と精度を高めることができる(初回のみ短く、最後に長い系列で学習させる)。Overwrapにより異なる入力に同じtokenが出現するため、Valueの計算にpositionを含めないことで計算のキャッシュを可能にしている。
### 論文リンク
### 著者/所属…
-
Hi, I am using Xlnet as a language model with code provided by HuggingFace PyTorch-transformers.
However, the xlnet consistantly underperformed Bert in our experiment. Considering it's advanced desig…
-
# 🌟 Adding the kNN-LM and kNN-MT models
## Model description
The kNN [Language Model](https://arxiv.org/pdf/1911.00172.pdf) and [Machine Translation](https://arxiv.org/pdf/2010.00710.pdf) levera…
-
WHO: As an information architect
WHAT: I want data modeling language(s) independent of technical artefacts
WHY: So that:
- the language is understandable to domain experts
- it can generate a var…
-
Apache Teaclave (https://github.com/apache/incubator-teaclave) is an Apache incubator project focusing on SGX. They implement a similar modeling language as Casbin but seems to be more powerful (Turin…
-
```
======================================================================
ERROR: test_shape_0 (tests.test_transchex.TestTranschex)
-----------------------------------------------------------------…
-
## 🐛 Bug
On [`multilingual_language_modeling.py` the method `build_dataset_for_inference`](https://github.com/pytorch/fairseq/blob/f591cc94caa85098ccf125a4782f91125b6a086d/fairseq/tasks/multilingua…
-
## ざっくり言うと
- documentからqueryが検索ワードとして生成される確率をモデル化
- 確率モデルは単語`t`の出現確率を工夫してモデル化している
- ノンパラメトリックな方法
- tf-idfよりも優れた検索結果を達成
#### キーワード
- IR
- Language modeling
## 1. 情報
### 論文リンク
https://dl.a…
-
之前折腾过一次,模型就下了半天时间。总共花了一天时间都没搞定,各种报错。
今天突然想起来又折腾了一下午
所有报错解决了,但这加载模型都用了半个小时,而且没进webui显存就被占用完了,最高直接用到30G显存。
眼看就要看到光明了,结果报错了,显存不足。。。
这个项目是不是不适合win系统?
win用户准备尝试的,建议慎重考虑,浪费时间不说,最后可能一场空。
后期作者有对win做优化…
-
## 一言でいうと
Attentionを行う場合、隠れ層のベクトルは次の単語の予測・Attentionの算出・将来の単語に有用な情報の格納、という3つの役割を担っていることになる。なので出力を3つにして役割分担させるアイデア。併せて、単純に過去の隠れ層を結合して入力するだけでも高精度になることを確認
### 論文リンク
https://arxiv.org/abs/1702.045…