NOt able to use QaNet - Githubissues

@Swathygsb typically we expect something like the following:

Steps to reproduce (run on 5c64f9d01ef39e3398372ebe4f19f864691679c0):

from allennlp.predictors import Predictor
Predictor.from_path("https://s3-us-west-2.amazonaws.com/allennlp/models/qanet-glove-2019.05.09.tar.gz")

Full stacktrace:

Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "/Users/michaels/hack/allenai/allennlp/allennlp/predictors/predictor.py", line 152, in from_path
    return Predictor.from_archive(load_archive(archive_path, cuda_device=cuda_device), predictor_name)
  File "/Users/michaels/hack/allenai/allennlp/allennlp/models/archival.py", line 230, in load_archive
    cuda_device=cuda_device)
  File "/Users/michaels/hack/allenai/allennlp/allennlp/models/model.py", line 327, in load
    return cls.by_name(model_type)._load(config, serialization_dir, weights_file, cuda_device)
  File "/Users/michaels/hack/allenai/allennlp/allennlp/models/model.py", line 276, in _load
    model.load_state_dict(model_state)
  File "/Users/michaels/miniconda3/envs/allennlp/lib/python3.6/site-packages/torch/nn/modules/module.py", line 769, in load_state_dict
    self.__class__.__name__, "\n\t".join(error_msgs)))
RuntimeError: Error(s) in loading state_dict for QaNet:
    Missing key(s) in state_dict: "_phrase_layer._encoder_blocks.0._conv_norm_layers.0.weight", "_phrase_layer._encoder_blocks.0._conv_norm_layers.0.bias", "_phrase_layer._encoder_blocks.0._conv_norm_layers.1.weight", "_phrase_layer._encoder_blocks.0._conv_norm_layers.1.bias", "_phrase_layer._encoder_blocks.0._conv_norm_layers.2.weight", "_phrase_layer._encoder_blocks.0._conv_norm_layers.2.bias", "_phrase_layer._encoder_blocks.0._conv_norm_layers.3.weight", "_phrase_layer._encoder_blocks.0._conv_norm_layers.3.bias", "_phrase_layer._encoder_blocks.0._conv_layers.0.1.weight", "_phrase_layer._encoder_blocks.0._conv_layers.0.1.bias", "_phrase_layer._encoder_blocks.0._conv_layers.0.2.weight", "_phrase_layer._encoder_blocks.0._conv_layers.0.2.bias", "_phrase_layer._encoder_blocks.0._conv_layers.1.1.weight", "_phrase_layer._encoder_blocks.0._conv_layers.1.1.bias", "_phrase_layer._encoder_blocks.0._conv_layers.1.2.weight", "_phrase_layer._encoder_blocks.0._conv_layers.1.2.bias", "_phrase_layer._encoder_blocks.0._conv_layers.2.1.weight", "_phrase_layer._encoder_blocks.0._conv_layers.2.1.bias", "_phrase_layer._encoder_blocks.0._conv_layers.2.2.weight", "_phrase_layer._encoder_blocks.0._conv_layers.2.2.bias", "_phrase_layer._encoder_blocks.0._conv_layers.3.1.weight", "_phrase_layer._encoder_blocks.0._conv_layers.3.1.bias", "_phrase_layer._encoder_blocks.0._conv_layers.3.2.weight", "_phrase_layer._encoder_blocks.0._conv_layers.3.2.bias", "_phrase_layer._encoder_blocks.0.attention_norm_layer.weight", "_phrase_layer._encoder_blocks.0.attention_norm_layer.bias", "_phrase_layer._encoder_blocks.0.attention_layer._combined_projection.weight", "_phrase_layer._encoder_blocks.0.attention_layer._combined_projection.bias", "_phrase_layer._encoder_blocks.0.attention_layer._output_projection.weight", "_phrase_layer._encoder_blocks.0.attention_layer._output_projection.bias", "_phrase_layer._encoder_blocks.0.feedforward_norm_layer.weight", "_phrase_layer._encoder_blocks.0.feedforward_norm_layer.bias", "_phrase_layer._encoder_blocks.0.feedforward._linear_layers.0.weight", "_phrase_layer._encoder_blocks.0.feedforward._linear_layers.0.bias", "_phrase_layer._encoder_blocks.0.feedforward._linear_layers.1.weight", "_phrase_layer._encoder_blocks.0.feedforward._linear_layers.1.bias", "_modeling_layer._encoder_blocks.0._conv_norm_layers.0.weight", "_modeling_layer._encoder_blocks.0._conv_norm_layers.0.bias", "_modeling_layer._encoder_blocks.0._conv_norm_layers.1.weight", "_modeling_layer._encoder_blocks.0._conv_norm_layers.1.bias", "_modeling_layer._encoder_blocks.0._conv_layers.0.1.weight", "_modeling_layer._encoder_blocks.0._conv_layers.0.1.bias", "_modeling_layer._encoder_blocks.0._conv_layers.0.2.weight", "_modeling_layer._encoder_blocks.0._conv_layers.0.2.bias", "_modeling_layer._encoder_blocks.0._conv_layers.1.1.weight", "_modeling_layer._encoder_blocks.0._conv_layers.1.1.bias", "_modeling_layer._encoder_blocks.0._conv_layers.1.2.weight", "_modeling_layer._encoder_blocks.0._conv_layers.1.2.bias", "_modeling_layer._encoder_blocks.0.attention_norm_layer.weight", "_modeling_layer._encoder_blocks.0.attention_norm_layer.bias", "_modeling_layer._encoder_blocks.0.attention_layer._combined_projection.weight", "_modeling_layer._encoder_blocks.0.attention_layer._combined_projection.bias", "_modeling_layer._encoder_blocks.0.attention_layer._output_projection.weight", "_modeling_layer._encoder_blocks.0.attention_layer._output_projection.bias", "_modeling_layer._encoder_blocks.0.feedforward_norm_layer.weight", "_modeling_layer._encoder_blocks.0.feedforward_norm_layer.bias", "_modeling_layer._encoder_blocks.0.feedforward._linear_layers.0.weight", "_modeling_layer._encoder_blocks.0.feedforward._linear_layers.0.bias", "_modeling_layer._encoder_blocks.0.feedforward._linear_layers.1.weight", "_modeling_layer._encoder_blocks.0.feedforward._linear_layers.1.bias", "_modeling_layer._encoder_blocks.1._conv_norm_layers.0.weight", "_modeling_layer._encoder_blocks.1._conv_norm_layers.0.bias", "_modeling_layer._encoder_blocks.1._conv_norm_layers.1.weight", "_modeling_layer._encoder_blocks.1._conv_norm_layers.1.bias", "_modeling_layer._encoder_blocks.1._conv_layers.0.1.weight", "_modeling_layer._encoder_blocks.1._conv_layers.0.1.bias", "_modeling_layer._encoder_blocks.1._conv_layers.0.2.weight", "_modeling_layer._encoder_blocks.1._conv_layers.0.2.bias", "_modeling_layer._encoder_blocks.1._conv_layers.1.1.weight", "_modeling_layer._encoder_blocks.1._conv_layers.1.1.bias", "_modeling_layer._encoder_blocks.1._conv_layers.1.2.weight", "_modeling_layer._encoder_blocks.1._conv_layers.1.2.bias", "_modeling_layer._encoder_blocks.1.attention_norm_layer.weight", "_modeling_layer._encoder_blocks.1.attention_norm_layer.bias", "_modeling_layer._encoder_blocks.1.attention_layer._combined_projection.weight", "_modeling_layer._encoder_blocks.1.attention_layer._combined_projection.bias", "_modeling_layer._encoder_blocks.1.attention_layer._output_projection.weight", "_modeling_layer._encoder_blocks.1.attention_layer._output_projection.bias", "_modeling_layer._encoder_blocks.1.feedforward_norm_layer.weight", "_modeling_layer._encoder_blocks.1.feedforward_norm_layer.bias", "_modeling_layer._encoder_blocks.1.feedforward._linear_layers.0.weight", "_modeling_layer._encoder_blocks.1.feedforward._linear_layers.0.bias", "_modeling_layer._encoder_blocks.1.feedforward._linear_layers.1.weight", "_modeling_layer._encoder_blocks.1.feedforward._linear_layers.1.bias", "_modeling_layer._encoder_blocks.2._conv_norm_layers.0.weight", "_modeling_layer._encoder_blocks.2._conv_norm_layers.0.bias", "_modeling_layer._encoder_blocks.2._conv_norm_layers.1.weight", "_modeling_layer._encoder_blocks.2._conv_norm_layers.1.bias", "_modeling_layer._encoder_blocks.2._conv_layers.0.1.weight", "_modeling_layer._encoder_blocks.2._conv_layers.0.1.bias", "_modeling_layer._encoder_blocks.2._conv_layers.0.2.weight", "_modeling_layer._encoder_blocks.2._conv_layers.0.2.bias", "_modeling_layer._encoder_blocks.2._conv_layers.1.1.weight", "_modeling_layer._encoder_blocks.2._conv_layers.1.1.bias", "_modeling_layer._encoder_blocks.2._conv_layers.1.2.weight", "_modeling_layer._encoder_blocks.2._conv_layers.1.2.bias", "_modeling_layer._encoder_blocks.2.attention_norm_layer.weight", "_modeling_layer._encoder_blocks.2.attention_norm_layer.bias", "_modeling_layer._encoder_blocks.2.attention_layer._combined_projection.weight", "_modeling_layer._encoder_blocks.2.attention_layer._combined_projection.bias", "_modeling_layer._encoder_blocks.2.attention_layer._output_projection.weight", "_modeling_layer._encoder_blocks.2.attention_layer._output_projection.bias", "_modeling_layer._encoder_blocks.2.feedforward_norm_layer.weight", "_modeling_layer._encoder_blocks.2.feedforward_norm_layer.bias", "_modeling_layer._encoder_blocks.2.feedforward._linear_layers.0.weight", "_modeling_layer._encoder_blocks.2.feedforward._linear_layers.0.bias", "_modeling_layer._encoder_blocks.2.feedforward._linear_layers.1.weight", "_modeling_layer._encoder_blocks.2.feedforward._linear_layers.1.bias", "_modeling_layer._encoder_blocks.3._conv_norm_layers.0.weight", "_modeling_layer._encoder_blocks.3._conv_norm_layers.0.bias", "_modeling_layer._encoder_blocks.3._conv_norm_layers.1.weight", "_modeling_layer._encoder_blocks.3._conv_norm_layers.1.bias", "_modeling_layer._encoder_blocks.3._conv_layers.0.1.weight", "_modeling_layer._encoder_blocks.3._conv_layers.0.1.bias", "_modeling_layer._encoder_blocks.3._conv_layers.0.2.weight", "_modeling_layer._encoder_blocks.3._conv_layers.0.2.bias", "_modeling_layer._encoder_blocks.3._conv_layers.1.1.weight", "_modeling_layer._encoder_blocks.3._conv_layers.1.1.bias", "_modeling_layer._encoder_blocks.3._conv_layers.1.2.weight", "_modeling_layer._encoder_blocks.3._conv_layers.1.2.bias", "_modeling_layer._encoder_blocks.3.attention_norm_layer.weight", "_modeling_layer._encoder_blocks.3.attention_norm_layer.bias", "_modeling_layer._encoder_blocks.3.attention_layer._combined_projection.weight", "_modeling_layer._encoder_blocks.3.attention_layer._combined_projection.bias", "_modeling_layer._encoder_blocks.3.attention_layer._output_projection.weight", "_modeling_layer._encoder_blocks.3.attention_layer._output_projection.bias", "_modeling_layer._encoder_blocks.3.feedforward_norm_layer.weight", "_modeling_layer._encoder_blocks.3.feedforward_norm_layer.bias", "_modeling_layer._encoder_blocks.3.feedforward._linear_layers.0.weight", "_modeling_layer._encoder_blocks.3.feedforward._linear_layers.0.bias", "_modeling_layer._encoder_blocks.3.feedforward._linear_layers.1.weight", "_modeling_layer._encoder_blocks.3.feedforward._linear_layers.1.bias", "_modeling_layer._encoder_blocks.4._conv_norm_layers.0.weight", "_modeling_layer._encoder_blocks.4._conv_norm_layers.0.bias", "_modeling_layer._encoder_blocks.4._conv_norm_layers.1.weight", "_modeling_layer._encoder_blocks.4._conv_norm_layers.1.bias", "_modeling_layer._encoder_blocks.4._conv_layers.0.1.weight", "_modeling_layer._encoder_blocks.4._conv_layers.0.1.bias", "_modeling_layer._encoder_blocks.4._conv_layers.0.2.weight", "_modeling_layer._encoder_blocks.4._conv_layers.0.2.bias", "_modeling_layer._encoder_blocks.4._conv_layers.1.1.weight", "_modeling_layer._encoder_blocks.4._conv_layers.1.1.bias", "_modeling_layer._encoder_blocks.4._conv_layers.1.2.weight", "_modeling_layer._encoder_blocks.4._conv_layers.1.2.bias", "_modeling_layer._encoder_blocks.4.attention_norm_layer.weight", "_modeling_layer._encoder_blocks.4.attention_norm_layer.bias", "_modeling_layer._encoder_blocks.4.attention_layer._combined_projection.weight", "_modeling_layer._encoder_blocks.4.attention_layer._combined_projection.bias", "_modeling_layer._encoder_blocks.4.attention_layer._output_projection.weight", "_modeling_layer._encoder_blocks.4.attention_layer._output_projection.bias", "_modeling_layer._encoder_blocks.4.feedforward_norm_layer.weight", "_modeling_layer._encoder_blocks.4.feedforward_norm_layer.bias", "_modeling_layer._encoder_blocks.4.feedforward._linear_layers.0.weight", "_modeling_layer._encoder_blocks.4.feedforward._linear_layers.0.bias", "_modeling_layer._encoder_blocks.4.feedforward._linear_layers.1.weight", "_modeling_layer._encoder_blocks.4.feedforward._linear_layers.1.bias", "_modeling_layer._encoder_blocks.5._conv_norm_layers.0.weight", "_modeling_layer._encoder_blocks.5._conv_norm_layers.0.bias", "_modeling_layer._encoder_blocks.5._conv_norm_layers.1.weight", "_modeling_layer._encoder_blocks.5._conv_norm_layers.1.bias", "_modeling_layer._encoder_blocks.5._conv_layers.0.1.weight", "_modeling_layer._encoder_blocks.5._conv_layers.0.1.bias", "_modeling_layer._encoder_blocks.5._conv_layers.0.2.weight", "_modeling_layer._encoder_blocks.5._conv_layers.0.2.bias", "_modeling_layer._encoder_blocks.5._conv_layers.1.1.weight", "_modeling_layer._encoder_blocks.5._conv_layers.1.1.bias", "_modeling_layer._encoder_blocks.5._conv_layers.1.2.weight", "_modeling_layer._encoder_blocks.5._conv_layers.1.2.bias", "_modeling_layer._encoder_blocks.5.attention_norm_layer.weight", "_modeling_layer._encoder_blocks.5.attention_norm_layer.bias", "_modeling_layer._encoder_blocks.5.attention_layer._combined_projection.weight", "_modeling_layer._encoder_blocks.5.attention_layer._combined_projection.bias", "_modeling_layer._encoder_blocks.5.attention_layer._output_projection.weight", "_modeling_layer._encoder_blocks.5.attention_layer._output_projection.bias", "_modeling_layer._encoder_blocks.5.feedforward_norm_layer.weight", "_modeling_layer._encoder_blocks.5.feedforward_norm_layer.bias", "_modeling_layer._encoder_blocks.5.feedforward._linear_layers.0.weight", "_modeling_layer._encoder_blocks.5.feedforward._linear_layers.0.bias", "_modeling_layer._encoder_blocks.5.feedforward._linear_layers.1.weight", "_modeling_layer._encoder_blocks.5.feedforward._linear_layers.1.bias", "_modeling_layer._encoder_blocks.6._conv_norm_layers.0.weight", "_modeling_layer._encoder_blocks.6._conv_norm_layers.0.bias", "_modeling_layer._encoder_blocks.6._conv_norm_layers.1.weight", "_modeling_layer._encoder_blocks.6._conv_norm_layers.1.bias", "_modeling_layer._encoder_blocks.6._conv_layers.0.1.weight", "_modeling_layer._encoder_blocks.6._conv_layers.0.1.bias", "_modeling_layer._encoder_blocks.6._conv_layers.0.2.weight", "_modeling_layer._encoder_blocks.6._conv_layers.0.2.bias", "_modeling_layer._encoder_blocks.6._conv_layers.1.1.weight", "_modeling_layer._encoder_blocks.6._conv_layers.1.1.bias", "_modeling_layer._encoder_blocks.6._conv_layers.1.2.weight", "_modeling_layer._encoder_blocks.6._conv_layers.1.2.bias", "_modeling_layer._encoder_blocks.6.attention_norm_layer.weight", "_modeling_layer._encoder_blocks.6.attention_norm_layer.bias", "_modeling_layer._encoder_blocks.6.attention_layer._combined_projection.weight", "_modeling_layer._encoder_blocks.6.attention_layer._combined_projection.bias", "_modeling_layer._encoder_blocks.6.attention_layer._output_projection.weight", "_modeling_layer._encoder_blocks.6.attention_layer._output_projection.bias", "_modeling_layer._encoder_blocks.6.feedforward_norm_layer.weight", "_modeling_layer._encoder_blocks.6.feedforward_norm_layer.bias", "_modeling_layer._encoder_blocks.6.feedforward._linear_layers.0.weight", "_modeling_layer._encoder_blocks.6.feedforward._linear_layers.0.bias", "_modeling_layer._encoder_blocks.6.feedforward._linear_layers.1.weight", "_modeling_layer._encoder_blocks.6.feedforward._linear_layers.1.bias". 
    Unexpected key(s) in state_dict: "_phrase_layer.encoder_block_0._conv_norm_layers.0.weight", "_phrase_layer.encoder_block_0._conv_norm_layers.0.bias", "_phrase_layer.encoder_block_0._conv_norm_layers.1.weight", "_phrase_layer.encoder_block_0._conv_norm_layers.1.bias", "_phrase_layer.encoder_block_0._conv_norm_layers.2.weight", "_phrase_layer.encoder_block_0._conv_norm_layers.2.bias", "_phrase_layer.encoder_block_0._conv_norm_layers.3.weight", "_phrase_layer.encoder_block_0._conv_norm_layers.3.bias", "_phrase_layer.encoder_block_0._conv_layers.0.1.weight", "_phrase_layer.encoder_block_0._conv_layers.0.1.bias", "_phrase_layer.encoder_block_0._conv_layers.0.2.weight", "_phrase_layer.encoder_block_0._conv_layers.0.2.bias", "_phrase_layer.encoder_block_0._conv_layers.1.1.weight", "_phrase_layer.encoder_block_0._conv_layers.1.1.bias", "_phrase_layer.encoder_block_0._conv_layers.1.2.weight", "_phrase_layer.encoder_block_0._conv_layers.1.2.bias", "_phrase_layer.encoder_block_0._conv_layers.2.1.weight", "_phrase_layer.encoder_block_0._conv_layers.2.1.bias", "_phrase_layer.encoder_block_0._conv_layers.2.2.weight", "_phrase_layer.encoder_block_0._conv_layers.2.2.bias", "_phrase_layer.encoder_block_0._conv_layers.3.1.weight", "_phrase_layer.encoder_block_0._conv_layers.3.1.bias", "_phrase_layer.encoder_block_0._conv_layers.3.2.weight", "_phrase_layer.encoder_block_0._conv_layers.3.2.bias", "_phrase_layer.encoder_block_0.attention_norm_layer.weight", "_phrase_layer.encoder_block_0.attention_norm_layer.bias", "_phrase_layer.encoder_block_0.attention_layer._combined_projection.weight", "_phrase_layer.encoder_block_0.attention_layer._combined_projection.bias", "_phrase_layer.encoder_block_0.attention_layer._output_projection.weight", "_phrase_layer.encoder_block_0.attention_layer._output_projection.bias", "_phrase_layer.encoder_block_0.feedforward_norm_layer.weight", "_phrase_layer.encoder_block_0.feedforward_norm_layer.bias", "_phrase_layer.encoder_block_0.feedforward._linear_layers.0.weight", "_phrase_layer.encoder_block_0.feedforward._linear_layers.0.bias", "_phrase_layer.encoder_block_0.feedforward._linear_layers.1.weight", "_phrase_layer.encoder_block_0.feedforward._linear_layers.1.bias", "_modeling_layer.encoder_block_0._conv_norm_layers.0.weight", "_modeling_layer.encoder_block_0._conv_norm_layers.0.bias", "_modeling_layer.encoder_block_0._conv_norm_layers.1.weight", "_modeling_layer.encoder_block_0._conv_norm_layers.1.bias", "_modeling_layer.encoder_block_0._conv_layers.0.1.weight", "_modeling_layer.encoder_block_0._conv_layers.0.1.bias", "_modeling_layer.encoder_block_0._conv_layers.0.2.weight", "_modeling_layer.encoder_block_0._conv_layers.0.2.bias", "_modeling_layer.encoder_block_0._conv_layers.1.1.weight", "_modeling_layer.encoder_block_0._conv_layers.1.1.bias", "_modeling_layer.encoder_block_0._conv_layers.1.2.weight", "_modeling_layer.encoder_block_0._conv_layers.1.2.bias", "_modeling_layer.encoder_block_0.attention_norm_layer.weight", "_modeling_layer.encoder_block_0.attention_norm_layer.bias", "_modeling_layer.encoder_block_0.attention_layer._combined_projection.weight", "_modeling_layer.encoder_block_0.attention_layer._combined_projection.bias", "_modeling_layer.encoder_block_0.attention_layer._output_projection.weight", "_modeling_layer.encoder_block_0.attention_layer._output_projection.bias", "_modeling_layer.encoder_block_0.feedforward_norm_layer.weight", "_modeling_layer.encoder_block_0.feedforward_norm_layer.bias", "_modeling_layer.encoder_block_0.feedforward._linear_layers.0.weight", "_modeling_layer.encoder_block_0.feedforward._linear_layers.0.bias", "_modeling_layer.encoder_block_0.feedforward._linear_layers.1.weight", "_modeling_layer.encoder_block_0.feedforward._linear_layers.1.bias", "_modeling_layer.encoder_block_1._conv_norm_layers.0.weight", "_modeling_layer.encoder_block_1._conv_norm_layers.0.bias", "_modeling_layer.encoder_block_1._conv_norm_layers.1.weight", "_modeling_layer.encoder_block_1._conv_norm_layers.1.bias", "_modeling_layer.encoder_block_1._conv_layers.0.1.weight", "_modeling_layer.encoder_block_1._conv_layers.0.1.bias", "_modeling_layer.encoder_block_1._conv_layers.0.2.weight", "_modeling_layer.encoder_block_1._conv_layers.0.2.bias", "_modeling_layer.encoder_block_1._conv_layers.1.1.weight", "_modeling_layer.encoder_block_1._conv_layers.1.1.bias", "_modeling_layer.encoder_block_1._conv_layers.1.2.weight", "_modeling_layer.encoder_block_1._conv_layers.1.2.bias", "_modeling_layer.encoder_block_1.attention_norm_layer.weight", "_modeling_layer.encoder_block_1.attention_norm_layer.bias", "_modeling_layer.encoder_block_1.attention_layer._combined_projection.weight", "_modeling_layer.encoder_block_1.attention_layer._combined_projection.bias", "_modeling_layer.encoder_block_1.attention_layer._output_projection.weight", "_modeling_layer.encoder_block_1.attention_layer._output_projection.bias", "_modeling_layer.encoder_block_1.feedforward_norm_layer.weight", "_modeling_layer.encoder_block_1.feedforward_norm_layer.bias", "_modeling_layer.encoder_block_1.feedforward._linear_layers.0.weight", "_modeling_layer.encoder_block_1.feedforward._linear_layers.0.bias", "_modeling_layer.encoder_block_1.feedforward._linear_layers.1.weight", "_modeling_layer.encoder_block_1.feedforward._linear_layers.1.bias", "_modeling_layer.encoder_block_2._conv_norm_layers.0.weight", "_modeling_layer.encoder_block_2._conv_norm_layers.0.bias", "_modeling_layer.encoder_block_2._conv_norm_layers.1.weight", "_modeling_layer.encoder_block_2._conv_norm_layers.1.bias", "_modeling_layer.encoder_block_2._conv_layers.0.1.weight", "_modeling_layer.encoder_block_2._conv_layers.0.1.bias", "_modeling_layer.encoder_block_2._conv_layers.0.2.weight", "_modeling_layer.encoder_block_2._conv_layers.0.2.bias", "_modeling_layer.encoder_block_2._conv_layers.1.1.weight", "_modeling_layer.encoder_block_2._conv_layers.1.1.bias", "_modeling_layer.encoder_block_2._conv_layers.1.2.weight", "_modeling_layer.encoder_block_2._conv_layers.1.2.bias", "_modeling_layer.encoder_block_2.attention_norm_layer.weight", "_modeling_layer.encoder_block_2.attention_norm_layer.bias", "_modeling_layer.encoder_block_2.attention_layer._combined_projection.weight", "_modeling_layer.encoder_block_2.attention_layer._combined_projection.bias", "_modeling_layer.encoder_block_2.attention_layer._output_projection.weight", "_modeling_layer.encoder_block_2.attention_layer._output_projection.bias", "_modeling_layer.encoder_block_2.feedforward_norm_layer.weight", "_modeling_layer.encoder_block_2.feedforward_norm_layer.bias", "_modeling_layer.encoder_block_2.feedforward._linear_layers.0.weight", "_modeling_layer.encoder_block_2.feedforward._linear_layers.0.bias", "_modeling_layer.encoder_block_2.feedforward._linear_layers.1.weight", "_modeling_layer.encoder_block_2.feedforward._linear_layers.1.bias", "_modeling_layer.encoder_block_3._conv_norm_layers.0.weight", "_modeling_layer.encoder_block_3._conv_norm_layers.0.bias", "_modeling_layer.encoder_block_3._conv_norm_layers.1.weight", "_modeling_layer.encoder_block_3._conv_norm_layers.1.bias", "_modeling_layer.encoder_block_3._conv_layers.0.1.weight", "_modeling_layer.encoder_block_3._conv_layers.0.1.bias", "_modeling_layer.encoder_block_3._conv_layers.0.2.weight", "_modeling_layer.encoder_block_3._conv_layers.0.2.bias", "_modeling_layer.encoder_block_3._conv_layers.1.1.weight", "_modeling_layer.encoder_block_3._conv_layers.1.1.bias", "_modeling_layer.encoder_block_3._conv_layers.1.2.weight", "_modeling_layer.encoder_block_3._conv_layers.1.2.bias", "_modeling_layer.encoder_block_3.attention_norm_layer.weight", "_modeling_layer.encoder_block_3.attention_norm_layer.bias", "_modeling_layer.encoder_block_3.attention_layer._combined_projection.weight", "_modeling_layer.encoder_block_3.attention_layer._combined_projection.bias", "_modeling_layer.encoder_block_3.attention_layer._output_projection.weight", "_modeling_layer.encoder_block_3.attention_layer._output_projection.bias", "_modeling_layer.encoder_block_3.feedforward_norm_layer.weight", "_modeling_layer.encoder_block_3.feedforward_norm_layer.bias", "_modeling_layer.encoder_block_3.feedforward._linear_layers.0.weight", "_modeling_layer.encoder_block_3.feedforward._linear_layers.0.bias", "_modeling_layer.encoder_block_3.feedforward._linear_layers.1.weight", "_modeling_layer.encoder_block_3.feedforward._linear_layers.1.bias", "_modeling_layer.encoder_block_4._conv_norm_layers.0.weight", "_modeling_layer.encoder_block_4._conv_norm_layers.0.bias", "_modeling_layer.encoder_block_4._conv_norm_layers.1.weight", "_modeling_layer.encoder_block_4._conv_norm_layers.1.bias", "_modeling_layer.encoder_block_4._conv_layers.0.1.weight", "_modeling_layer.encoder_block_4._conv_layers.0.1.bias", "_modeling_layer.encoder_block_4._conv_layers.0.2.weight", "_modeling_layer.encoder_block_4._conv_layers.0.2.bias", "_modeling_layer.encoder_block_4._conv_layers.1.1.weight", "_modeling_layer.encoder_block_4._conv_layers.1.1.bias", "_modeling_layer.encoder_block_4._conv_layers.1.2.weight", "_modeling_layer.encoder_block_4._conv_layers.1.2.bias", "_modeling_layer.encoder_block_4.attention_norm_layer.weight", "_modeling_layer.encoder_block_4.attention_norm_layer.bias", "_modeling_layer.encoder_block_4.attention_layer._combined_projection.weight", "_modeling_layer.encoder_block_4.attention_layer._combined_projection.bias", "_modeling_layer.encoder_block_4.attention_layer._output_projection.weight", "_modeling_layer.encoder_block_4.attention_layer._output_projection.bias", "_modeling_layer.encoder_block_4.feedforward_norm_layer.weight", "_modeling_layer.encoder_block_4.feedforward_norm_layer.bias", "_modeling_layer.encoder_block_4.feedforward._linear_layers.0.weight", "_modeling_layer.encoder_block_4.feedforward._linear_layers.0.bias", "_modeling_layer.encoder_block_4.feedforward._linear_layers.1.weight", "_modeling_layer.encoder_block_4.feedforward._linear_layers.1.bias", "_modeling_layer.encoder_block_5._conv_norm_layers.0.weight", "_modeling_layer.encoder_block_5._conv_norm_layers.0.bias", "_modeling_layer.encoder_block_5._conv_norm_layers.1.weight", "_modeling_layer.encoder_block_5._conv_norm_layers.1.bias", "_modeling_layer.encoder_block_5._conv_layers.0.1.weight", "_modeling_layer.encoder_block_5._conv_layers.0.1.bias", "_modeling_layer.encoder_block_5._conv_layers.0.2.weight", "_modeling_layer.encoder_block_5._conv_layers.0.2.bias", "_modeling_layer.encoder_block_5._conv_layers.1.1.weight", "_modeling_layer.encoder_block_5._conv_layers.1.1.bias", "_modeling_layer.encoder_block_5._conv_layers.1.2.weight", "_modeling_layer.encoder_block_5._conv_layers.1.2.bias", "_modeling_layer.encoder_block_5.attention_norm_layer.weight", "_modeling_layer.encoder_block_5.attention_norm_layer.bias", "_modeling_layer.encoder_block_5.attention_layer._combined_projection.weight", "_modeling_layer.encoder_block_5.attention_layer._combined_projection.bias", "_modeling_layer.encoder_block_5.attention_layer._output_projection.weight", "_modeling_layer.encoder_block_5.attention_layer._output_projection.bias", "_modeling_layer.encoder_block_5.feedforward_norm_layer.weight", "_modeling_layer.encoder_block_5.feedforward_norm_layer.bias", "_modeling_layer.encoder_block_5.feedforward._linear_layers.0.weight", "_modeling_layer.encoder_block_5.feedforward._linear_layers.0.bias", "_modeling_layer.encoder_block_5.feedforward._linear_layers.1.weight", "_modeling_layer.encoder_block_5.feedforward._linear_layers.1.bias", "_modeling_layer.encoder_block_6._conv_norm_layers.0.weight", "_modeling_layer.encoder_block_6._conv_norm_layers.0.bias", "_modeling_layer.encoder_block_6._conv_norm_layers.1.weight", "_modeling_layer.encoder_block_6._conv_norm_layers.1.bias", "_modeling_layer.encoder_block_6._conv_layers.0.1.weight", "_modeling_layer.encoder_block_6._conv_layers.0.1.bias", "_modeling_layer.encoder_block_6._conv_layers.0.2.weight", "_modeling_layer.encoder_block_6._conv_layers.0.2.bias", "_modeling_layer.encoder_block_6._conv_layers.1.1.weight", "_modeling_layer.encoder_block_6._conv_layers.1.1.bias", "_modeling_layer.encoder_block_6._conv_layers.1.2.weight", "_modeling_layer.encoder_block_6._conv_layers.1.2.bias", "_modeling_layer.encoder_block_6.attention_norm_layer.weight", "_modeling_layer.encoder_block_6.attention_norm_layer.bias", "_modeling_layer.encoder_block_6.attention_layer._combined_projection.weight", "_modeling_layer.encoder_block_6.attention_layer._combined_projection.bias", "_modeling_layer.encoder_block_6.attention_layer._output_projection.weight", "_modeling_layer.encoder_block_6.attention_layer._output_projection.bias", "_modeling_layer.encoder_block_6.feedforward_norm_layer.weight", "_modeling_layer.encoder_block_6.feedforward_norm_layer.bias", "_modeling_layer.encoder_block_6.feedforward._linear_layers.0.weight", "_modeling_layer.encoder_block_6.feedforward._linear_layers.0.bias", "_modeling_layer.encoder_block_6.feedforward._linear_layers.1.weight", "_modeling_layer.encoder_block_6.feedforward._linear_layers.1.bias".

allenai / allennlp

NOt able to use QaNet #3056