-
- https://arxiv.org/abs/2106.09785
- 2021
本論文では、視覚表現学習のための効率的な自己教師付き視覚変換器(EsViT)を開発するための2つの技術を調査する。
まず、包括的な実証研究を通して、疎な自己言及を持つ多段アーキテクチャは、モデリングの複雑さを大幅に軽減できるが、その代償として画像領域間の細かい対応関係を捉える能力が失われることを示す。
…
e4exp updated
3 years ago
-
- https://arxiv.org/abs/2104.12753
- 2021
コンピュータビジョンのタスクにトランスフォーマー構造を導入することで,従来の畳み込みネットワークよりも速度と精度のトレードオフが改善されると期待されている.
しかし,バニラ変換器を視覚タスクで直接学習すると,不安定で最適ではない結果が得られることがわかっている.
そのため,最近の研究では,視覚タスクでの…
e4exp updated
3 years ago
-
- https://arxiv.org/abs/2104.10935
- 2021
近年,ViT(Vision Transformer)アーキテクチャは,純粋に自己注意メカニズムをバックボーンとしており,視覚分類において非常に有望な性能を達成している.
しかし,オリジナルのViTの性能は,超大規模データセットを用いた事前学習に大きく依存しており,ImageNet-1Kをゼロから学習した場…
e4exp updated
3 years ago
-
I have been working on implementing a ViT model using ggml here : [vit.cpp](https://github.com/staghado/vit.cpp). It is still WIP but most of the work is done. It is highly inspired by the SAM example…
-
in load_pretrained_model
model = CambrianLlamaForCausalLM.from_pretrained(
File "/usr/local/lib/python3.10/dist-packages/transformers/modeling_utils.py", line 3531, in from_pretrained
) =…
-
Hey, thanks for creating these notebooks! But I am trying to run Idefics_FT, and unfortunately, it isn't working... I run into an out of memory error when calling trainer.train() even though I am runn…
-
@songhappy / @shane-huang : Please could you share the code or steps how you ran LanguageBind/Video-LLaVA-7B-hf on IPEX-LLM few months back.
As we have a customer who wants to use video-llava runni…
-
Hi, I noticed that you submitted a paper titled “Masked Attention as a Mechanism for Improving Interpretability of Vision Transformers” to Medical Imaging with Deep Learning 2024. Do you plan to integ…
-
Hi there, thanks for merging #282!
I was wondering if you could release the script you used for visualizing the attention maps in the [VISION TRANSFORMERS NEED REGISTERS](https://arxiv.org/pdf/230…
-
### Links
- Paper : https://arxiv.org/abs/2104.14294
- Github : https://github.com/facebookresearch/dino
### 한 줄 요약
- Vision 도메인에서 self-supervised learning의 backbone으로 ViT를 사용하는 DINO 제안. ResNet을…