Integrate qwen and qwen_parallel into minillm pipeline

Integrate the open-sourced model Qwen (https://huggingface.co/Qwen) into the minillm distillation algorithm, supporting both non-parallel and parallel training. mainly added 2 folders： transformers/src/transformers/models/qwen/ transformers/src/transformers/models/qwen_parallel/

Tips:

Due to the vocab_size of Qwen's tokenizer exceeds 150k, which is much larger than gpt2 (~50k) or llama (32k), I did slight modification of the data processing code related to tokenizer to prevent overflow, like from uint16 to uint32;
Slightly added few lines in transformers/src/transformers/ init.py and transformers/src/transformers/models/ init.py to adapt to qwen;
The corresponding training data like dolly and roberta/openwebtext needs to be pre-processed using qwen's tokenizer, which is not done here.

microsoft / LMOps

Integrate qwen and qwen_parallel into minillm pipeline #143