OpenBMB / CPM-Bee

百亿参数的中英文双语基座大模型
2.68k stars 211 forks source link

ext_table是什么? #87

Open tingxinli1 opened 1 year ago

tingxinli1 commented 1 year ago

能问问ext_table_ids和ext_table_subs是什么嘛,为什么我编码1000个样本后它的shape是(188,)呢?因为这个东西和样本数无法对齐,所以无法使用transformer的微调支持。如果每个样本输入的东西是一样的,后续可以考虑改为输入(1000,188)之类的输入么?这样更容易被其他社区支持。

gongbaitao commented 1 year ago

每个样本的输入是不一样的 ext_table是对词表的动态扩展,用于处理, , ... , , ...这样的可变特殊token。 请问您有使用huggingface中的tokenizer.prepare_for_finetune方法吗? 它可以帮助转换模型训练所需要的数据格式

tingxinli1 commented 1 year ago

请问您有使用huggingface中的tokenizer.prepare_for_finetune方法吗? 它可以帮助转换模型训练所需要的数据格式

我就是通过您提到的这个方法完成的预处理,但因为ext_table相关的几个变量的shape,处理后的tensor很难被简单地输入到huggingface的trainer中。

tingxinli1 commented 1 year ago

每个样本的输入是不一样的

如果每个样本都分别对应一个输入,那为什么我输入1000条样本会得到一个shape为(188,)的tensor呢?如果每个样本都有对应的ex_table_ids,那一般来说感觉我得到的应该是1000个不同长度的tensor,就像token_ids一样。这一块不是特别理解。感谢您的耐心回复!