-
- https://arxiv.org/abs/2110.09753
- ACM MM 2021
本研究では、画像からテキスト、テキストから画像への世代交代という自然な双方向タスクの共同学習について研究する。
既存の研究では、それぞれのタスクに特化した2つのモデルを設計しているため、設計コストが高くなってしまう。
本研究では、単一のマルチモーダルモデルに基づいて、双方向タスクを共同で学…
e4exp updated
3 years ago
-
'''
WARNING:root:bert_config not exists. will load model from huggingface checkpoint.
Traceback (most recent call last):
File "run_weibo_ner_cws.py", line 31, in
train_bert_multitask(proble…
-
Thanks for your great job.
I am trying to use the demo tools you have revealed to extract RoI and box features.
Since It is too slow to extract features by inputing single image, would you plan to …
-
```
$ python captions_generator.py --save_path synthetic_captions --generation_idx 0 --concept_bank_size -1 --me…
-
[paper](https://arxiv.org/pdf/2103.15679.pdf), [code](https://github.com/hila-chefer/Transformer-MM-Explainability)
## TL;DR
- **I read this because.. :** aka. CheferCAM. explainable CLIP scor…
-
Hello! First of all thank you so much for your work. I have read your paper and I want to carry out some open-ended VQA/answer generation VQA experiments with the model you proposed (VL-T5). However I…
-
I've tried to install `DiaParser` via `pip install diaparser`, and it destroyed [Icelandic tokenizer](https://pypi.org/project/tokenizer/). I'm vague why they conflicted in installing...
-
Dear Pro:
I read about the Vizwiz Leaderboard for ECCV 2018. The results shown are 55.40 for no model ensemble. But I trained the Vizwiz datasets and the results are only 51.96. So I want to know…
-
- https://arxiv.org/abs/2104.11832
- 2021
大規模な変換器ベースの事前学習は、近年、視覚と言語(V+L)の研究に革命をもたらした。
LXMERT、ViLBERT、UNITERなどのモデルは、広範囲のV+Lタスクにおいて、技術的な状況を大幅に改善した。
しかし、このようなモデルはパラメータの数が多いため、実際には適用できません。
これと並行して、…
e4exp updated
3 years ago
-
### Model description
Do we support Model2Vec embedding models?
E.g: https://huggingface.co/minishlab/potion-base-8M
https://minishlab.github.io/tokenlearn_blogpost/
### Open source status
- […