想請問未來會支援Multi-modal嗎?

JayYip / m3tl

BERT for Multitask Learning

https://jayyip.github.io/m3tl/

Apache License 2.0

545 stars 125 forks source link

想請問未來會支援Multi-modal嗎? #39

Closed QAQOAO closed 3 years ago

QAQOAO commented 4 years ago

您好，在github上搜尋 BERT multitask的時候發現了你的repo，因為目前在github找不太到有人同時整合一個BERT multitask multi-modal的架構，有找到BERT multi-modal的但沒有multitask，所以想說加果能支援multi-modal的話就完美了，謝謝!

JayYip commented 4 years ago

multi-modal可能需要在预处理上做比较多的工作, 需要将各个Modal转换成有某种统一规范的tensor, 我对其他领域不太熟悉, 但是对于图像, 感觉是可以加上的. 请问你的场景是怎样的呢?

QAQOAO commented 4 years ago

感謝您的回覆，

場景主要是想利用圖片和文字分類多標籤

每一個row是一對一對應的圖片+文字作為輸入，輸出因為是Multi-task，所以可以是Multi-label 或Multi-class classification的樣子

https://arxiv.org/pdf/1909.02950.pdf

這個是我找到輸入那邊(Multi-modal)和我的場景滿像的論文，只是輸出那邊(Multi-task)和我的場景不一樣，沒有Multi-task，所以沒辦法做Multi-label或Multi-class的部分

JayYip commented 4 years ago

嗯, 明白了, 我有空会考虑支持.

JayYip commented 4 years ago

图像输入已经支持。每个训练样本为

{
    "text": ...,
    "image": ...
}, label