ext_table是什么？ - Githubissues

OpenBMB / CPM-Bee

百亿参数的中英文双语基座大模型

2.68k stars 211 forks source link

ext_table是什么？ #87

Open tingxinli1 opened 1 year ago

tingxinli1 commented 1 year ago

能问问ext_table_ids和ext_table_subs是什么嘛，为什么我编码1000个样本后它的shape是(188,)呢？因为这个东西和样本数无法对齐，所以无法使用transformer的微调支持。如果每个样本输入的东西是一样的，后续可以考虑改为输入(1000,188)之类的输入么？这样更容易被其他社区支持。

gongbaitao commented 1 year ago

每个样本的输入是不一样的 ext_table是对词表的动态扩展，用于处理, , ... , , ...这样的可变特殊token。请问您有使用huggingface中的tokenizer.prepare_for_finetune方法吗? 它可以帮助转换模型训练所需要的数据格式

tingxinli1 commented 1 year ago

请问您有使用huggingface中的tokenizer.prepare_for_finetune方法吗? 它可以帮助转换模型训练所需要的数据格式

我就是通过您提到的这个方法完成的预处理，但因为ext_table相关的几个变量的shape，处理后的tensor很难被简单地输入到huggingface的trainer中。

tingxinli1 commented 1 year ago

每个样本的输入是不一样的

如果每个样本都分别对应一个输入，那为什么我输入1000条样本会得到一个shape为(188,)的tensor呢？如果每个样本都有对应的ex_table_ids，那一般来说感觉我得到的应该是1000个不同长度的tensor，就像token_ids一样。这一块不是特别理解。感谢您的耐心回复！