baichuan-inc / Baichuan-7B

A large-scale 7B pretraining language model developed by BaiChuan-Inc.
https://huggingface.co/baichuan-inc/baichuan-7B
Apache License 2.0
5.67k stars 506 forks source link

[Question] Baichuan模型中的Attention模块为什么在train的时候没有用到attention_mask? #111

Open sigmundchen opened 1 year ago

sigmundchen commented 1 year ago

Required prerequisites

Questions

项目中提到“”“整体模型基于标准的 Transformer 结构,我们采用了和 LLaMA 一样的模型设计”“” 然而我发现在modeling_baichuan.py中的Attention ,在train阶段没有用到attention_mask。 但是llama中的Attention是用到了的。 请问这是为什么呢?

Checklist

goog commented 1 year ago

这个有点好奇 百川开源了不开源交流?