layoutlm的config中vocab_size含义

opendatalab / PDF-Extract-Kit

A Comprehensive Toolkit for High-Quality PDF Content Extraction

GNU Affero General Public License v3.0

5.73k stars 382 forks source link

Closed ai1361720220000 closed 4 months ago

ai1361720220000 commented 4 months ago

请问一下用layoutlmv3做目标检测，我看yaml里设置IMAGE_ONLY:True，意味着只用了图像编码。那config文件中的vocab_size=250002的含义是什么呢，是用来做什么的。因为我看它区别于原始layoutlmv3中的大了很多。

ouyanglinke commented 4 months ago

我们提供的LayoutLmv3的权重是基于microsoft/layoutlmv3-base-chinese的pretrain模型基础上微调的，config.json文件跟layoutlmv3-base-chinese模型的config.json保持一致。

ai1361720220000 commented 4 months ago

我们提供的LayoutLmv3的权重是基于microsoft/layoutlmv3-base-chinese的pretrain模型基础上微调的，config.json文件跟layoutlmv3-base-chinese模型的config.json保持一致。

谢谢解答～

ai1361720220000 commented 4 months ago

我们提供的LayoutLmv3的权重是基于microsoft/layoutlmv3-base-chinese的pretrain模型基础上微调的，config.json文件跟layoutlmv3-base-chinese模型的config.json保持一致。

请问微调的时候有加入ocr的信息吗？还是像layoutlmv3那样只用图像部分，没有用ocr部分，直接做一个检测就可以

ouyanglinke commented 4 months ago

检测的时候没有OCR信息引入，微调用的是LayoutLmv3提供的Object Detection代码。