-
- https://arxiv.org/abs/2105.14077
- 2021
自然言語処理の分野に革命をもたらした変換モデルを参考にして、視覚タスクのための自己教師付き特徴学習でも、これらの非常に深い等方性ネットワークを用いて最先端の成功を収めています。
しかし、一般的なAI研究者は、数十億個のパラメータを持ち、二次的な自己充足活性を持つモデルを訓練することはおろか、評価するための…
e4exp updated
3 years ago
-
问个肤浅的问题,为什么代码中ViTAE只有NC模块,不包含RC模块。remote sensing应用中的ViTAE结构与ViTAE: Vision Transformer Advanced by Exploring Intrinsic Inductive Bias论文中结构不同
-
Thanks for open-sourcing the code! I have a question - your paper seems to revolve around mono-architectural weight initialization. What if I want to use a very large pretrained ViT to initialize a mu…
-
## 一言でいうと
構造が異なるモデル間で蒸留を行うことで、特定モデルで学習しやすい知識(CNNなら局所特徴、RNNなら系列構造など)を転移できるか検証した研究。CNN=>MLP、LSTM=>Transformerで蒸留を行いそれぞれの学習傾向が蒸留先モデルに反映されることを確認。
### 論文リンク
https://arxiv.org/abs/2006.00555
###…
-
### Feature request
Add support for LlamaGen, an autoregressive image generation model, to the Transformers library. LlamaGen applies the next-token prediction paradigm of large language models to vi…
-
Hi, thank you for your wonderful work! Here is my question:
In the prefilling stage, that is, during the prompt processing stage, will any tokens be pruned?
exhyy updated
2 weeks ago
-
## 一言でいうと
今後より人間に近しいタスクを行っていくには、推論方法をより一般化したものにしていく必要があるという提言。CNNは局所的な情報から、RNNは系列的な情報からしか推論できないため、グラフ型が適しているとしている。そこでグラフネットワークを新しい構造単位として使うための定義を行っている。
### 論文リンク
https://arxiv.org/abs/1806.01…
-
- [ ] [GRANDE: Gradient-Based Decision Tree Ensembles for Tabular Data | OpenReview](https://openreview.net/forum?id=XEFWBxi075)
# GRANDE: Gradient-Based Decision Tree Ensembles for Tabular Data
## …
-
https://github.com/huang-yh/GaussianFormer/blob/3bf28d50b41c8a54fda8147defe52a08f1a05b4e/model/encoder/gaussian_encoder/spconv3d_module.py#L53-L67
Although interaction can be efficient using spar…
-
I do not have a clear idea about how Hivemind should be integrated, yet. Let this issue exist to document a discussion around potential solutions.
Currently, each layer in a decoder is called an "e…