opendatalab / PDF-Extract-Kit

A Comprehensive Toolkit for High-Quality PDF Content Extraction
https://pdf-extract-kit.readthedocs.io/zh-cn/latest/index.html
GNU Affero General Public License v3.0
5.73k stars 382 forks source link

layoutlm的config中vocab_size含义 #26

Closed ai1361720220000 closed 4 months ago

ai1361720220000 commented 4 months ago

请问一下用layoutlmv3做目标检测,我看yaml里设置IMAGE_ONLY:True,意味着只用了图像编码。那config文件中的vocab_size=250002的含义是什么呢,是用来做什么的。因为我看它区别于原始layoutlmv3中的大了很多。

ouyanglinke commented 4 months ago

我们提供的LayoutLmv3的权重是基于microsoft/layoutlmv3-base-chinese的pretrain模型基础上微调的,config.json文件跟layoutlmv3-base-chinese模型的config.json保持一致。

ai1361720220000 commented 4 months ago

我们提供的LayoutLmv3的权重是基于microsoft/layoutlmv3-base-chinese的pretrain模型基础上微调的,config.json文件跟layoutlmv3-base-chinese模型的config.json保持一致。

谢谢解答~

ai1361720220000 commented 4 months ago

我们提供的LayoutLmv3的权重是基于microsoft/layoutlmv3-base-chinese的pretrain模型基础上微调的,config.json文件跟layoutlmv3-base-chinese模型的config.json保持一致。

请问微调的时候有加入ocr的信息吗?还是像layoutlmv3那样只用图像部分,没有用ocr部分,直接做一个检测就可以

ouyanglinke commented 4 months ago

检测的时候没有OCR信息引入,微调用的是LayoutLmv3提供的Object Detection代码。