-
Thank you for your impressive work, congratulations! I am wondering when you will release pre-trained language models based on sigmoid attention, at least a small demo models? I am looking forward to …
-
[Qwen2Audio huggingface docs](https://huggingface.co/docs/transformers/main/en/model_doc/qwen2_audio)
I see there's been a couple requests for vision-language model support like LLaVa:
https:…
-
Hi,
does it work with German?
Thanks!
-
- https://arxiv.org/abs/2105.13880
- 2021
近年、GPT-3に代表される大規模な事前学習済み言語モデル(PLM)の探索により、膨大な量のパラメータを持つPLMの威力が明らかになり、ますます大規模なPLMを学習する波が起こっています。
しかし、大規模なPLMの学習には膨大な計算資源が必要であり、時間とコストがかかります。
また、既存の大規模PLMは…
e4exp updated
3 years ago
-
### Initiative (Required)
GSSoC 2024 Extd 🚀
### Is your feature request related to a problem? Please describe.
Hi, I would like to contribute a Real-Time Translation Model to the Advanced section u…
-
-
Hi,
I have a working implementation of [Stella_en__v5](https://huggingface.co/dunzhang/stella_en_1.5B_v5) family of models which is one of the top ranking model in the MTEB leaderboard for rerankin…
-
- https://arxiv.org/abs/2010.12821
- 2020
本稿では、最新の学習済み言語モデルにおいて、入力埋め込みと出力埋め込みの間で重みを共有するという標準的な手法を再評価する。
その結果、非結合型の埋め込みによってモデリングの柔軟性が向上し、多言語モデルの入力埋め込みにおけるパラメータ割り当ての効率を大幅に改善できることを示した。
入力エンベッディングのパ…
e4exp updated
3 years ago
-
## 一言でいうと
RNNを使った言語モデルにword embeddingを組み込むことで性能向上をはかっている話。メモリセルにはGRU、embeddingにはGloVeを使用。n番目の単語ベクトルをn-1個の単語ベクトルから予測している。
### 論文リンク
https://arxiv.org/abs/1610.03759
### 著者/所属機関
Victor Makarenk…
-
In the [MLM ](https://github.com/wherobots/mlm-form) each model has a geospatial footprint. right now it is pretty loose what this represents, so I expect this to be confusing to use for search and di…