PaddlePaddle / PaddleNLP

👑 Easy-to-use and powerful NLP and LLM library with 🤗 Awesome model zoo, supporting wide-range of NLP tasks from research to industrial applications, including 🗂Text Classification, 🔍 Neural Search, ❓ Question Answering, ℹ️ Information Extraction, 📄 Document Intelligence, 💌 Sentiment Analysis etc.
https://paddlenlp.readthedocs.io
Apache License 2.0
11.99k stars 2.93k forks source link

[Question]: ERNIE-ViL 2.0如何进行微调 #6875

Closed aircov closed 5 months ago

aircov commented 1 year ago

请提出你的问题

https://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/ernie-vil2.0 本项目开源了 ERNIE-ViL 2.0 预训练模型及微调方案。好像只有预训练,怎么在预训练模型上微调呢?微调的例子能不能给一个参考,不太会。 另外数据处理的代码是有问题的,调试了半天才能运行。希望可以优化一下

python preprocess/create_arrow_dataset.py \
    --data_dir data/datasets/Flickr30k-CN \
    --splits train,valid,test \
    --image_dir data/datasets/Flickr30k-CN/image \
    --t2i_type   jsonl
w5688414 commented 1 year ago

给的示例就是微调的例子,预训练的方案没有开源,把您的报错发一下

aircov commented 1 year ago

@w5688414 你好,微调的例子跑通了,请问一下例子中数据格式是一个5个text对一个image,假如我的业务数据是1个text对应1个image,训练的模型效果会不会有影响?二、如果我的训练数据是一个text 对多个image,这个怎么搞,求助大佬

XJAlive commented 1 year ago

@w5688414 你好,微调的例子跑通了,请问一下例子中数据格式是一个5个text对一个image,假如我的业务数据是1个text对应1个image,训练的模型效果会不会有影响?二、如果我的训练数据是一个text 对多个image,这个怎么搞,求助大佬

你好,请教个问题,我用对接文档上面的 python == 3.9.12 paddlepaddle == 2.3.2 paddlenlp == 2.4.5 wordcloud == 1.8.2.2 安装之后在运行到python -u -m paddle.distributed.launch --gpus "0" finetune.py进行模型训练的时候报错说找不到“ Can't load tokenizer for ['uie-senta-mini'”模型,原因是远程的模型目录迁移了,这种你是怎么解决的,我升级了最新版paddlenlp==2.6.0同样有别的报错 16935625813449

w5688414 commented 1 year ago

请升级 paddlepaddle 到2.5.1 paddlenlp升级到2.6.0

XJAlive commented 1 year ago

请升级 paddlepaddle 到2.5.1 paddlenlp升级到2.6.0 已按照你的建议升级 python == 3.9.12 paddlepaddle == 2.5.1 paddlenlp == 2.6.0 wordcloud == 1.8.2.2 但是预测结果没有任何输出,有可能是什么原因,win10,运行结果如下: image

XJAlive commented 1 year ago

请升级 paddlepaddle 到2.5.1 paddlenlp升级到2.6.0 已按照你的建议升级 python == 3.9.12 paddlepaddle == 2.5.1 paddlenlp == 2.6.0 wordcloud == 1.8.2.2 但是预测结果没有任何输出,有可能是什么原因,win10,运行结果如下: image

已解决,降级到了2.5.0-rc1,2.5.1CPU版本有点问题