-
This is our proposition for a new item-notation for more uniformity, I hope this is (a little bit) clear to you!
The items in the list are displayed as their N2-form in the RIS-code (= like in the …
-
- https://arxiv.org/abs/2106.00676
- 2021
科学論文のタイトル,著者名,本文などを分類することは,科学文書を自動で理解するための重要な第一歩です.
これまでの研究では、各トークンのページ上の2次元的な位置などの基本的なレイアウト情報を用いることで、より正確な分類が可能になることが示されています。
本研究では、言語モデルにVIsual LAyout…
e4exp updated
3 years ago
-
- https://arxiv.org/abs/2103.04037
- 2021
トランスフォーマーアーキテクチャは、長年リカレントニューラルネットワークに支配されていた計算言語学の分野に根本的な変化をもたらしました。
その成功は、言語と視覚のクロスモーダルなタスクにも劇的な変化をもたらし、多くの研究者がすでにこの問題に取り組んでいます。
本論文では、この分野における最も重要なマイル…
e4exp updated
3 years ago
-
请问如果想把swin-b改成swin-s的话,是不是只要
arg = dict(pretrain_img_size=384, window_size=12, embed_dim=128, out_indices=[2, 1],
depths=[2, 2, 18, 2], num_heads=[4, 8, 16, 32])
中dict这一块改成
dict(pre…
-
Hello InternVideo team,
You guys have done a great job with this project!
In your paper, you use the Stage 2 model for the task of temporal grounding on QVHighlight [Lei et al., 2021] and Charad…
-
- https://arxiv.org/abs/2106.13488
- 2021
視覚言語の事前学習(VLP)は、画像とテキストのペアからマルチモーダルな表現を学習し、下流の視覚言語タスクのために微調整を行うことを目的としています。
一般的なVLPモデルは、CNN-Transformerアーキテクチャを採用しており、画像をCNNで埋め込み、画像とテキストをTransformerで整列さ…
e4exp updated
3 years ago
-
- https://arxiv.org/abs/2104.03135
- CVPR 2021
本研究では、畳み込みニューラルネットワーク(CNN)とトランスフォーマー(Transformer)の共同学習により、何百万もの画像とテキストのペアからクロスモーダルな位置合わせを学習することを目的とした視覚言語事前学習(VLPT)を研究しています。
従来の手法では、画像の顕著な領域を抽出し、その…
e4exp updated
3 years ago
-
In [this colab](https://colab.research.google.com/drive/17XEqL1JcmVWjHkT-WczdYkJlNINacwG7?usp=sharing#scrollTo=2QK51MtdsMLu) you show how to load adapter and merge it with initial model. Notice it loa…
-
First of all, thank you for sharing the awesome code.
After setting everything up, when I tried to launch the demo, I encountered the following error. Please help me.
```
(kosmos-2) wendell@:~/…
-
Hello and thank you for your work.
I am interested in replicating your results on the RIS task, with SwinB backbone in particular.
I noticed that you only report the command for evaluating with ViTD…