TsinghuaAI / CPM-1-Generate

Chinese Pre-Trained Language Models (CPM-LM) Version-I
MIT License
1.59k stars 211 forks source link

文本分类任务的结果跟论文中相差很大。 #67

Closed Chunhui-Zou closed 2 years ago

Chunhui-Zou commented 2 years ago

文本分类中,处理OCNLI的结果和论文中近似,其他两个数据集的结果相差很远。有人知道是什么原因吗

数据集OCNLI

EVAL 1309/2948=0.444(论文中0.442)

数据集TNEWS

EVAL 3280/10000=0.328(论文中0.703)

IFLYTEK

EVAL 563 2598=0.2167

zzy14 commented 2 years ago

可能是模型没有正确加载?您可以提供一下运行的命令。

Chunhui-Zou commented 2 years ago

!/bin/bash

CHECKPOINT_PATH="data/chickpoint/CPM-large"

Large

MPSIZE=2 NLAYERS=32 NHIDDEN=2560 NATT=32 MAXSEQLEN=1024

Small

MPSIZE=1

NLAYERS=12

NHIDDEN=768

NATT=12

MAXSEQLEN=1024

CMD="python -m torch.distributed.launch --nproc_per_node 4 zero-shot-cls.py \ --model-parallel-size $MPSIZE \ --num-layers $NLAYERS \ --hidden-size $NHIDDEN \ --load $CHECKPOINT_PATH \ --num-attention-heads $NATT \ --seq-length $MAXSEQLEN \ --max-position-embeddings 1024 \ --fp16 \ --cache-dir cache \ --eval-data-path $1 \ --tokenizer-path bpe_3w_new/ \ --vocab-size 30000 \ --task iflytek \ --seed 5"

$CMD

Chunhui-Zou commented 2 years ago

在OCNLI数据集的结果是和论文中接近,其他两个数据集的结果相差很大

jerryli1981 commented 2 years ago

在OCNLI数据集的结果是和论文中接近,其他两个数据集的结果相差很大

您好,我也发现在TNEW上的指标和论文差别比较大,请问您后来解决了吗?

zzy14 commented 2 years ago

参考 #46 ,原始默认测试完整标签集合结果,现已改为默认测试采样标签集合结果。