[FeatureRequest]`bmt.OpTransformerBlockList` **DO NOT** support multiple return values of transformer block's forward propogation

1. Currently `bmt.OpTransformerBlockList` can only handle the hidden states returned by transformer block.

Recent released flash_atten implemented transformer block returns hidden_states as well as residual in order to fuse Dropout -> Add -> LN. Additionally, the above two will be passed to the next block as input;
- ```
class Block(nn.Module):
  def forward(self, hidden_states: Tensor, residual: Optional[Tensor] = None,
        mixer_subset=None, mixer_kwargs=None):
      if self.prenorm:
           ...
          return hidden_states, residual
      ...
```
- https://github.com/HazyResearch/flash-attention/blob/v1.0.4/flash_attn/modules/block.py#L172
Above case seemed not be considered by our bmt.OpTransformerBlockList and cannot be properly handled by us.
- https://github.com/OpenBMB/BMTrain/blob/0.2.1/bmtrain/block_layer.py#L672