dimension problem when running dialog_qa model on Quac

Describe the bug I was trying to run dialog_qa model on Quac data with default settings, there is a dimension error. The error message is "input.size(-1) must be equal to input_size. Expected 1124, got 1144".

To Reproduce bin/allennlp train training_config/dialog_qa.jsonnet -s /tmp

The full log is as below.

(allennlp) [yyu@dccxc275 allennlp]$ bin/allennlp train training_config/dialog_qa.jsonnet -s ~/stor/stanfordQA/quac 2018-10-22 15:01:16,320 - INFO - allennlp.common.registrable - instantiating registered subclass relu of <class 'allennlp.nn.activations.Activation'> 2018-10-22 15:01:16,326 - INFO - allennlp.common.registrable - instantiating registered subclass relu of <class 'allennlp.nn.activations.Activation'> 2018-10-22 15:01:16,329 - INFO - allennlp.common.registrable - instantiating registered subclass relu of <class 'allennlp.nn.activations.Activation'> 2018-10-22 15:01:16,332 - INFO - allennlp.common.registrable - instantiating registered subclass relu of <class 'allennlp.nn.activations.Activation'> 2018-10-22 15:01:17,232 - INFO - allennlp.common.params - random_seed = 13370 2018-10-22 15:01:17,232 - INFO - allennlp.common.params - numpy_seed = 1337 2018-10-22 15:01:17,232 - INFO - allennlp.common.params - pytorch_seed = 133 2018-10-22 15:01:17,245 - INFO - allennlp.common.checks - Pytorch version: 0.4.1 2018-10-22 15:01:17,256 - INFO - allennlp.common.from_params - instantiating class <class 'allennlp.data.dataset_readers.dataset_reader.DatasetReader'> from params {'lazy': True, 'num_context_answers': 2, 'token_indexers': {'elmo': {'type': 'elmo_characters'}, 'token_characters': {'character_tokenizer': {'byte_encoding': 'utf-8', 'end_tokens': [260], 'start_tokens': [259]}, 'type': 'characters'}}, 'type': 'quac'} and extras {} 2018-10-22 15:01:17,256 - INFO - allennlp.common.params - dataset_reader.type = quac 2018-10-22 15:01:17,257 - INFO - allennlp.common.from_params - instantiating class <class 'allennlp.data.dataset_readers.reading_comprehension.quac.QuACReader'> from params {'lazy': True, 'num_context_answers': 2, 'token_indexers': {'elmo': {'type': 'elmo_characters'}, 'token_characters': {'character_tokenizer': {'byte_encoding': 'utf-8', 'end_tokens': [260], 'start_tokens': [259]}, 'type': 'characters'}}} and extras {} 2018-10-22 15:01:17,257 - INFO - allennlp.common.from_params - instantiating class allennlp.data.token_indexers.token_indexer.TokenIndexer from params {'type': 'elmo_characters'} and extras {} 2018-10-22 15:01:17,257 - INFO - allennlp.common.params - dataset_reader.token_indexers.elmo.type = elmo_characters 2018-10-22 15:01:17,257 - INFO - allennlp.common.from_params - instantiating class allennlp.data.token_indexers.elmo_indexer.ELMoTokenCharactersIndexer from params {} and extras {} 2018-10-22 15:01:17,257 - INFO - allennlp.common.params - dataset_reader.token_indexers.elmo.namespace = elmo_characters 2018-10-22 15:01:17,257 - INFO - allennlp.common.from_params - instantiating class allennlp.data.token_indexers.token_indexer.TokenIndexer from params {'character_tokenizer': {'byte_encoding': 'utf-8', 'end_tokens': [260], 'start_tokens': [259]}, 'type': 'characters'} and extras {} 2018-10-22 15:01:17,257 - INFO - allennlp.common.params - dataset_reader.token_indexers.token_characters.type = characters 2018-10-22 15:01:17,257 - INFO - allennlp.common.from_params - instantiating class allennlp.data.token_indexers.token_characters_indexer.TokenCharactersIndexer from params {'character_tokenizer': {'byte_encoding': 'utf-8', 'end_tokens': [260], 'start_tokens': [259]}} and extras {} 2018-10-22 15:01:17,258 - INFO - allennlp.common.params - dataset_reader.token_indexers.token_characters.namespace = token_characters 2018-10-22 15:01:17,258 - INFO - allennlp.common.from_params - instantiating class <class 'allennlp.data.tokenizers.character_tokenizer.CharacterTokenizer'> from params {'byte_encoding': 'utf-8', 'end_tokens': [260], 'start_tokens': [259]} and extras {} 2018-10-22 15:01:17,258 - INFO - allennlp.common.params - dataset_reader.token_indexers.token_characters.character_tokenizer.byte_encoding = utf-8 2018-10-22 15:01:17,258 - INFO - allennlp.common.params - dataset_reader.token_indexers.token_characters.character_tokenizer.lowercase_characters = False 2018-10-22 15:01:17,258 - INFO - allennlp.common.params - dataset_reader.token_indexers.token_characters.character_tokenizer.start_tokens = [259] 2018-10-22 15:01:17,258 - INFO - allennlp.common.params - dataset_reader.token_indexers.token_characters.character_tokenizer.end_tokens = [260] 2018-10-22 15:01:17,258 - INFO - allennlp.common.params - dataset_reader.token_indexers.token_characters.start_tokens = None 2018-10-22 15:01:17,258 - INFO - allennlp.common.params - dataset_reader.token_indexers.token_characters.end_tokens = None 2018-10-22 15:01:17,258 - INFO - allennlp.common.params - dataset_reader.lazy = True 2018-10-22 15:01:17,258 - INFO - allennlp.common.params - dataset_reader.num_context_answers = 2 2018-10-22 15:01:17,620 - INFO - allennlp.common.params - validation_dataset_reader = None 2018-10-22 15:01:17,620 - INFO - allennlp.common.params - train_data_path = https://s3.amazonaws.com/my89public/quac/train_5000.json 2018-10-22 15:01:17,620 - INFO - allennlp.commands.train - Reading training data from https://s3.amazonaws.com/my89public/quac/train_5000.json 2018-10-22 15:01:17,620 - INFO - allennlp.common.params - validation_data_path = https://s3.amazonaws.com/my89public/quac/val.json 2018-10-22 15:01:17,620 - INFO - allennlp.commands.train - Reading validation data from https://s3.amazonaws.com/my89public/quac/val.json 2018-10-22 15:01:17,620 - INFO - allennlp.common.params - test_data_path = None 2018-10-22 15:01:17,620 - INFO - allennlp.commands.train - From dataset instances, validation, train will be considered for vocabulary creation. 2018-10-22 15:01:17,620 - INFO - allennlp.common.params - vocabulary.type = None 2018-10-22 15:01:17,621 - INFO - allennlp.common.params - vocabulary.extend = False 2018-10-22 15:01:17,621 - INFO - allennlp.common.params - vocabulary.directory_path = None 2018-10-22 15:01:17,621 - INFO - allennlp.common.params - vocabulary.min_count = None 2018-10-22 15:01:17,621 - INFO - allennlp.common.params - vocabulary.max_vocab_size = None 2018-10-22 15:01:17,621 - INFO - allennlp.common.params - vocabulary.non_padded_namespaces = ('tags', 'labels') 2018-10-22 15:01:17,621 - INFO - allennlp.common.params - vocabulary.min_pretrained_embeddings = None 2018-10-22 15:01:17,621 - INFO - allennlp.common.params - vocabulary.only_include_pretrained_words = False 2018-10-22 15:01:17,621 - INFO - allennlp.common.params - vocabulary.tokens_to_add = None 2018-10-22 15:01:17,621 - INFO - allennlp.data.vocabulary - Fitting token dictionary from dataset. 0it [00:00, ?it/s]2018-10-22 15:01:17,711 - INFO - allennlp.data.dataset_readers.reading_comprehension.quac - Reading file at /u/yyu/.allennlp/datasets/359c6ea221dd5c83aede3df1c193f3ba60313e4ddd9e35b70eb6bfc0563812b4.9513ad45c4f7132b914656baa7c5ae9c29c7758261068734be87a06bc7f8e2a8 2018-10-22 15:01:18,836 - INFO - allennlp.data.dataset_readers.reading_comprehension.quac - Reading the dataset 11270it [03:48, 46.12it/s]2018-10-22 15:05:06,363 - INFO - allennlp.data.dataset_readers.reading_comprehension.quac - Reading file at /u/yyu/.allennlp/datasets/89058012dc1b920d9d404b8b1c5f823a5f21a247773c0c7a42ea331aad0875de.eb25c3c0537a4b119cc8179f371df014d2de9b7a9ff83c5debde0630f272236f 2018-10-22 15:05:06,438 - INFO - allennlp.data.dataset_readers.reading_comprehension.quac - Reading the dataset 12271it [04:13, 48.38it/s] 2018-10-22 15:05:31,272 - INFO - allennlp.common.from_params - instantiating class <class 'allennlp.models.model.Model'> from params {'dropout': 0.2, 'initializer': [], 'marker_embedding_dim': 10, 'num_context_answers': 2, 'phrase_layer': {'bidirectional': True, 'hidden_size': 100, 'input_size': 1124, 'num_layers': 1, 'type': 'gru'}, 'residual_encoder': {'bidirectional': True, 'hidden_size': 100, 'input_size': 200, 'num_layers': 1, 'type': 'gru'}, 'span_end_encoder': {'bidirectional': True, 'hidden_size': 100, 'input_size': 400, 'num_layers': 1, 'type': 'gru'}, 'span_start_encoder': {'bidirectional': True, 'hidden_size': 100, 'input_size': 200, 'num_layers': 1, 'type': 'gru'}, 'text_field_embedder': {'elmo': {'do_layer_norm': False, 'dropout': 0.2, 'options_file': 'https://s3-us-west-2.amazonaws.com/allennlp/models/elmo/2x4096_512_2048cnn_2xhighway/elmo_2x4096_512_2048cnn_2xhighway_options.json', 'type': 'elmo_token_embedder', 'weight_file': 'https://s3-us-west-2.amazonaws.com/allennlp/models/elmo/2x4096_512_2048cnn_2xhighway/elmo_2x4096_512_2048cnn_2xhighway_weights.hdf5'}, 'token_characters': {'dropout': 0.2, 'embedding': {'embedding_dim': 20, 'num_embeddings': 262}, 'encoder': {'embedding_dim': 20, 'ngram_filter_sizes': [5], 'num_filters': 100, 'type': 'cnn'}, 'type': 'character_encoding'}}, 'type': 'dialog_qa'} and extras {'vocab': <allennlp.data.vocabulary.Vocabulary object at 0x2b7c4c50c668>} 2018-10-22 15:05:31,273 - INFO - allennlp.common.params - model.type = dialog_qa 2018-10-22 15:05:31,273 - INFO - allennlp.common.from_params - instantiating class <class 'allennlp.models.reading_comprehension.dialog_qa.DialogQA'> from params {'dropout': 0.2, 'initializer': [], 'marker_embedding_dim': 10, 'num_context_answers': 2, 'phrase_layer': {'bidirectional': True, 'hidden_size': 100, 'input_size': 1124, 'num_layers': 1, 'type': 'gru'}, 'residual_encoder': {'bidirectional': True, 'hidden_size': 100, 'input_size': 200, 'num_layers': 1, 'type': 'gru'}, 'span_end_encoder': {'bidirectional': True, 'hidden_size': 100, 'input_size': 400, 'num_layers': 1, 'type': 'gru'}, 'span_start_encoder': {'bidirectional': True, 'hidden_size': 100, 'input_size': 200, 'num_layers': 1, 'type': 'gru'}, 'text_field_embedder': {'elmo': {'do_layer_norm': False, 'dropout': 0.2, 'options_file': 'https://s3-us-west-2.amazonaws.com/allennlp/models/elmo/2x4096_512_2048cnn_2xhighway/elmo_2x4096_512_2048cnn_2xhighway_options.json', 'type': 'elmo_token_embedder', 'weight_file': 'https://s3-us-west-2.amazonaws.com/allennlp/models/elmo/2x4096_512_2048cnn_2xhighway/elmo_2x4096_512_2048cnn_2xhighway_weights.hdf5'}, 'token_characters': {'dropout': 0.2, 'embedding': {'embedding_dim': 20, 'num_embeddings': 262}, 'encoder': {'embedding_dim': 20, 'ngram_filter_sizes': [5], 'num_filters': 100, 'type': 'cnn'}, 'type': 'character_encoding'}}} and extras {'vocab': <allennlp.data.vocabulary.Vocabulary object at 0x2b7c4c50c668>} 2018-10-22 15:05:31,273 - INFO - allennlp.common.from_params - instantiating class <class 'allennlp.modules.text_field_embedders.text_field_embedder.TextFieldEmbedder'> from params {'elmo': {'do_layer_norm': False, 'dropout': 0.2, 'options_file': 'https://s3-us-west-2.amazonaws.com/allennlp/models/elmo/2x4096_512_2048cnn_2xhighway/elmo_2x4096_512_2048cnn_2xhighway_options.json', 'type': 'elmo_token_embedder', 'weight_file': 'https://s3-us-west-2.amazonaws.com/allennlp/models/elmo/2x4096_512_2048cnn_2xhighway/elmo_2x4096_512_2048cnn_2xhighway_weights.hdf5'}, 'token_characters': {'dropout': 0.2, 'embedding': {'embedding_dim': 20, 'num_embeddings': 262}, 'encoder': {'embedding_dim': 20, 'ngram_filter_sizes': [5], 'num_filters': 100, 'type': 'cnn'}, 'type': 'character_encoding'}} and extras {'vocab': <allennlp.data.vocabulary.Vocabulary object at 0x2b7c4c50c668>} 2018-10-22 15:05:31,273 - INFO - allennlp.common.params - model.text_field_embedder.type = basic 2018-10-22 15:05:31,273 - INFO - allennlp.common.params - model.text_field_embedder.embedder_to_indexer_map = None 2018-10-22 15:05:31,273 - INFO - allennlp.common.params - model.text_field_embedder.allow_unmatched_keys = False 2018-10-22 15:05:31,273 - INFO - allennlp.common.params - model.text_field_embedder.token_embedders = None 2018-10-22 15:05:31,274 - INFO - allennlp.common.from_params - instantiating class <class 'allennlp.modules.token_embedders.token_embedder.TokenEmbedder'> from params {'do_layer_norm': False, 'dropout': 0.2, 'options_file': 'https://s3-us-west-2.amazonaws.com/allennlp/models/elmo/2x4096_512_2048cnn_2xhighway/elmo_2x4096_512_2048cnn_2xhighway_options.json', 'type': 'elmo_token_embedder', 'weight_file': 'https://s3-us-west-2.amazonaws.com/allennlp/models/elmo/2x4096_512_2048cnn_2xhighway/elmo_2x4096_512_2048cnn_2xhighway_weights.hdf5'} and extras {'vocab': <allennlp.data.vocabulary.Vocabulary object at 0x2b7c4c50c668>} 2018-10-22 15:05:31,274 - INFO - allennlp.common.params - model.text_field_embedder.elmo.type = elmo_token_embedder 2018-10-22 15:05:31,985 - INFO - allennlp.common.params - model.text_field_embedder.elmo.options_file = https://s3-us-west-2.amazonaws.com/allennlp/models/elmo/2x4096_512_2048cnn_2xhighway/elmo_2x4096_512_2048cnn_2xhighway_options.json 2018-10-22 15:05:31,985 - INFO - allennlp.common.params - model.text_field_embedder.elmo.weight_file = https://s3-us-west-2.amazonaws.com/allennlp/models/elmo/2x4096_512_2048cnn_2xhighway/elmo_2x4096_512_2048cnn_2xhighway_weights.hdf5 2018-10-22 15:05:31,986 - INFO - allennlp.common.params - model.text_field_embedder.elmo.requires_grad = False 2018-10-22 15:05:31,986 - INFO - allennlp.common.params - model.text_field_embedder.elmo.do_layer_norm = False 2018-10-22 15:05:31,986 - INFO - allennlp.common.params - model.text_field_embedder.elmo.dropout = 0.2 2018-10-22 15:05:31,986 - INFO - allennlp.common.params - model.text_field_embedder.elmo.namespace_to_cache = None 2018-10-22 15:05:31,986 - INFO - allennlp.common.params - model.text_field_embedder.elmo.projection_dim = None 2018-10-22 15:05:31,986 - INFO - root - Initializing ELMo 2018-10-22 15:05:46,855 - INFO - allennlp.common.from_params - instantiating class <class 'allennlp.modules.token_embedders.token_embedder.TokenEmbedder'> from params {'dropout': 0.2, 'embedding': {'embedding_dim': 20, 'num_embeddings': 262}, 'encoder': {'embedding_dim': 20, 'ngram_filter_sizes': [5], 'num_filters': 100, 'type': 'cnn'}, 'type': 'character_encoding'} and extras {'vocab': <allennlp.data.vocabulary.Vocabulary object at 0x2b7c4c50c668>} 2018-10-22 15:05:46,855 - INFO - allennlp.common.params - model.text_field_embedder.token_characters.type = character_encoding 2018-10-22 15:05:46,856 - INFO - allennlp.common.params - model.text_field_embedder.token_characters.embedding.num_embeddings = 262 2018-10-22 15:05:46,856 - INFO - allennlp.common.params - model.text_field_embedder.token_characters.embedding.vocab_namespace = token_characters 2018-10-22 15:05:46,856 - INFO - allennlp.common.params - model.text_field_embedder.token_characters.embedding.embedding_dim = 20 2018-10-22 15:05:46,856 - INFO - allennlp.common.params - model.text_field_embedder.token_characters.embedding.pretrained_file = None 2018-10-22 15:05:46,856 - INFO - allennlp.common.params - model.text_field_embedder.token_characters.embedding.projection_dim = None 2018-10-22 15:05:46,856 - INFO - allennlp.common.params - model.text_field_embedder.token_characters.embedding.trainable = True 2018-10-22 15:05:46,856 - INFO - allennlp.common.params - model.text_field_embedder.token_characters.embedding.padding_index = None 2018-10-22 15:05:46,856 - INFO - allennlp.common.params - model.text_field_embedder.token_characters.embedding.max_norm = None 2018-10-22 15:05:46,856 - INFO - allennlp.common.params - model.text_field_embedder.token_characters.embedding.norm_type = 2.0 2018-10-22 15:05:46,856 - INFO - allennlp.common.params - model.text_field_embedder.token_characters.embedding.scale_grad_by_freq = False 2018-10-22 15:05:46,856 - INFO - allennlp.common.params - model.text_field_embedder.token_characters.embedding.sparse = False 2018-10-22 15:05:46,856 - INFO - allennlp.common.from_params - instantiating class <class 'allennlp.modules.seq2vec_encoders.seq2vec_encoder.Seq2VecEncoder'> from params {'embedding_dim': 20, 'ngram_filter_sizes': [5], 'num_filters': 100, 'type': 'cnn'} and extras {} 2018-10-22 15:05:46,857 - INFO - allennlp.common.params - model.text_field_embedder.token_characters.encoder.type = cnn 2018-10-22 15:05:46,857 - INFO - allennlp.common.from_params - instantiating class <class 'allennlp.modules.seq2vec_encoders.cnn_encoder.CnnEncoder'> from params {'embedding_dim': 20, 'ngram_filter_sizes': [5], 'num_filters': 100} and extras {} 2018-10-22 15:05:46,857 - INFO - allennlp.common.params - model.text_field_embedder.token_characters.encoder.embedding_dim = 20 2018-10-22 15:05:46,857 - INFO - allennlp.common.params - model.text_field_embedder.token_characters.encoder.num_filters = 100 2018-10-22 15:05:46,857 - INFO - allennlp.common.params - model.text_field_embedder.token_characters.encoder.ngram_filter_sizes = [5] 2018-10-22 15:05:46,857 - INFO - allennlp.common.params - model.text_field_embedder.token_characters.encoder.output_dim = None 2018-10-22 15:05:46,857 - INFO - allennlp.common.registrable - instantiating registered subclass relu of <class 'allennlp.nn.activations.Activation'> 2018-10-22 15:05:46,857 - INFO - allennlp.common.params - model.text_field_embedder.token_characters.dropout = 0.2 2018-10-22 15:05:46,858 - INFO - allennlp.common.from_params - instantiating class <class 'allennlp.modules.seq2seq_encoders.seq2seq_encoder.Seq2SeqEncoder'> from params {'bidirectional': True, 'hidden_size': 100, 'input_size': 1124, 'num_layers': 1, 'type': 'gru'} and extras {'vocab': <allennlp.data.vocabulary.Vocabulary object at 0x2b7c4c50c668>} 2018-10-22 15:05:46,858 - INFO - allennlp.common.params - model.phrase_layer.type = gru 2018-10-22 15:05:46,858 - INFO - allennlp.common.params - model.phrase_layer.batch_first = True 2018-10-22 15:05:46,858 - INFO - allennlp.common.params - model.phrase_layer.stateful = False 2018-10-22 15:05:46,858 - INFO - allennlp.common.params - Converting Params object to dict; logging of default values will not occur when dictionary parameters are used subsequently. 2018-10-22 15:05:46,858 - INFO - allennlp.common.params - CURRENTLY DEFINED PARAMETERS: 2018-10-22 15:05:46,858 - INFO - allennlp.common.params - model.phrase_layer.bidirectional = True 2018-10-22 15:05:46,858 - INFO - allennlp.common.params - model.phrase_layer.hidden_size = 100 2018-10-22 15:05:46,858 - INFO - allennlp.common.params - model.phrase_layer.input_size = 1124 2018-10-22 15:05:46,858 - INFO - allennlp.common.params - model.phrase_layer.num_layers = 1 2018-10-22 15:05:46,858 - INFO - allennlp.common.params - model.phrase_layer.batch_first = True 2018-10-22 15:05:46,865 - INFO - allennlp.common.from_params - instantiating class <class 'allennlp.modules.seq2seq_encoders.seq2seq_encoder.Seq2SeqEncoder'> from params {'bidirectional': True, 'hidden_size': 100, 'input_size': 200, 'num_layers': 1, 'type': 'gru'} and extras {'vocab': <allennlp.data.vocabulary.Vocabulary object at 0x2b7c4c50c668>} 2018-10-22 15:05:46,865 - INFO - allennlp.common.params - model.residual_encoder.type = gru 2018-10-22 15:05:46,865 - INFO - allennlp.common.params - model.residual_encoder.batch_first = True 2018-10-22 15:05:46,866 - INFO - allennlp.common.params - model.residual_encoder.stateful = False 2018-10-22 15:05:46,866 - INFO - allennlp.common.params - Converting Params object to dict; logging of default values will not occur when dictionary parameters are used subsequently. 2018-10-22 15:05:46,866 - INFO - allennlp.common.params - CURRENTLY DEFINED PARAMETERS: 2018-10-22 15:05:46,866 - INFO - allennlp.common.params - model.residual_encoder.bidirectional = True 2018-10-22 15:05:46,866 - INFO - allennlp.common.params - model.residual_encoder.hidden_size = 100 2018-10-22 15:05:46,866 - INFO - allennlp.common.params - model.residual_encoder.input_size = 200 2018-10-22 15:05:46,866 - INFO - allennlp.common.params - model.residual_encoder.num_layers = 1 2018-10-22 15:05:46,866 - INFO - allennlp.common.params - model.residual_encoder.batch_first = True 2018-10-22 15:05:46,868 - INFO - allennlp.common.from_params - instantiating class <class 'allennlp.modules.seq2seq_encoders.seq2seq_encoder.Seq2SeqEncoder'> from params {'bidirectional': True, 'hidden_size': 100, 'input_size': 200, 'num_layers': 1, 'type': 'gru'} and extras {'vocab': <allennlp.data.vocabulary.Vocabulary object at 0x2b7c4c50c668>} 2018-10-22 15:05:46,868 - INFO - allennlp.common.params - model.span_start_encoder.type = gru 2018-10-22 15:05:46,868 - INFO - allennlp.common.params - model.span_start_encoder.batch_first = True 2018-10-22 15:05:46,868 - INFO - allennlp.common.params - model.span_start_encoder.stateful = False 2018-10-22 15:05:46,868 - INFO - allennlp.common.params - Converting Params object to dict; logging of default values will not occur when dictionary parameters are used subsequently. 2018-10-22 15:05:46,868 - INFO - allennlp.common.params - CURRENTLY DEFINED PARAMETERS: 2018-10-22 15:05:46,869 - INFO - allennlp.common.params - model.span_start_encoder.bidirectional = True 2018-10-22 15:05:46,869 - INFO - allennlp.common.params - model.span_start_encoder.hidden_size = 100 2018-10-22 15:05:46,869 - INFO - allennlp.common.params - model.span_start_encoder.input_size = 200 2018-10-22 15:05:46,869 - INFO - allennlp.common.params - model.span_start_encoder.num_layers = 1 2018-10-22 15:05:46,869 - INFO - allennlp.common.params - model.span_start_encoder.batch_first = True 2018-10-22 15:05:46,871 - INFO - allennlp.common.from_params - instantiating class <class 'allennlp.modules.seq2seq_encoders.seq2seq_encoder.Seq2SeqEncoder'> from params {'bidirectional': True, 'hidden_size': 100, 'input_size': 400, 'num_layers': 1, 'type': 'gru'} and extras {'vocab': <allennlp.data.vocabulary.Vocabulary object at 0x2b7c4c50c668>} 2018-10-22 15:05:46,871 - INFO - allennlp.common.params - model.span_end_encoder.type = gru 2018-10-22 15:05:46,871 - INFO - allennlp.common.params - model.span_end_encoder.batch_first = True 2018-10-22 15:05:46,871 - INFO - allennlp.common.params - model.span_end_encoder.stateful = False 2018-10-22 15:05:46,871 - INFO - allennlp.common.params - Converting Params object to dict; logging of default values will not occur when dictionary parameters are used subsequently. 2018-10-22 15:05:46,871 - INFO - allennlp.common.params - CURRENTLY DEFINED PARAMETERS: 2018-10-22 15:05:46,871 - INFO - allennlp.common.params - model.span_end_encoder.bidirectional = True 2018-10-22 15:05:46,871 - INFO - allennlp.common.params - model.span_end_encoder.hidden_size = 100 2018-10-22 15:05:46,871 - INFO - allennlp.common.params - model.span_end_encoder.input_size = 400 2018-10-22 15:05:46,871 - INFO - allennlp.common.params - model.span_end_encoder.num_layers = 1 2018-10-22 15:05:46,871 - INFO - allennlp.common.params - model.span_end_encoder.batch_first = True 2018-10-22 15:05:46,874 - INFO - allennlp.common.params - model.initializer = [] 2018-10-22 15:05:46,874 - INFO - allennlp.common.params - model.dropout = 0.2 2018-10-22 15:05:46,874 - INFO - allennlp.common.params - model.num_context_answers = 2 2018-10-22 15:05:46,874 - INFO - allennlp.common.params - model.marker_embedding_dim = 10 2018-10-22 15:05:46,875 - INFO - allennlp.common.params - model.max_span_length = 30 2018-10-22 15:05:46,875 - INFO - allennlp.common.registrable - instantiating registered subclass linear of <class 'allennlp.nn.activations.Activation'> 2018-10-22 15:05:46,876 - INFO - allennlp.common.registrable - instantiating registered subclass linear of <class 'allennlp.nn.activations.Activation'> 2018-10-22 15:05:46,878 - INFO - allennlp.nn.initializers - Initializing parameters 2018-10-22 15:05:46,878 - INFO - allennlp.nn.initializers - Done initializing parameters; the following parameters are using their default initialization from their code 2018-10-22 15:05:46,879 - INFO - allennlp.nn.initializers - _followup_lin.bias 2018-10-22 15:05:46,879 - INFO - allennlp.nn.initializers - _followup_lin.weight 2018-10-22 15:05:46,879 - INFO - allennlp.nn.initializers - _matrix_attention._bias 2018-10-22 15:05:46,879 - INFO - allennlp.nn.initializers - _matrix_attention._weight_vector 2018-10-22 15:05:46,879 - INFO - allennlp.nn.initializers - _merge_atten._module.bias 2018-10-22 15:05:46,879 - INFO - allennlp.nn.initializers - _merge_atten._module.weight 2018-10-22 15:05:46,879 - INFO - allennlp.nn.initializers - _merge_self_attention._module.bias 2018-10-22 15:05:46,879 - INFO - allennlp.nn.initializers - _merge_self_attention._module.weight 2018-10-22 15:05:46,879 - INFO - allennlp.nn.initializers - _phrase_layer._module.bias_hh_l0 2018-10-22 15:05:46,879 - INFO - allennlp.nn.initializers - _phrase_layer._module.bias_hh_l0_reverse 2018-10-22 15:05:46,879 - INFO - allennlp.nn.initializers - _phrase_layer._module.bias_ih_l0 2018-10-22 15:05:46,879 - INFO - allennlp.nn.initializers - _phrase_layer._module.bias_ih_l0_reverse 2018-10-22 15:05:46,879 - INFO - allennlp.nn.initializers - _phrase_layer._module.weight_hh_l0 2018-10-22 15:05:46,880 - INFO - allennlp.nn.initializers - _phrase_layer._module.weight_hh_l0_reverse 2018-10-22 15:05:46,880 - INFO - allennlp.nn.initializers - _phrase_layer._module.weight_ih_l0 2018-10-22 15:05:46,880 - INFO - allennlp.nn.initializers - _phrase_layer._module.weight_ih_l0_reverse 2018-10-22 15:05:46,880 - INFO - allennlp.nn.initializers - _prev_ans_marker.weight 2018-10-22 15:05:46,880 - INFO - allennlp.nn.initializers - _question_num_marker.weight 2018-10-22 15:05:46,880 - INFO - allennlp.nn.initializers - _residual_encoder._module.bias_hh_l0 2018-10-22 15:05:46,880 - INFO - allennlp.nn.initializers - _residual_encoder._module.bias_hh_l0_reverse 2018-10-22 15:05:46,880 - INFO - allennlp.nn.initializers - _residual_encoder._module.bias_ih_l0 2018-10-22 15:05:46,880 - INFO - allennlp.nn.initializers - _residual_encoder._module.bias_ih_l0_reverse 2018-10-22 15:05:46,880 - INFO - allennlp.nn.initializers - _residual_encoder._module.weight_hh_l0 2018-10-22 15:05:46,880 - INFO - allennlp.nn.initializers - _residual_encoder._module.weight_hh_l0_reverse 2018-10-22 15:05:46,880 - INFO - allennlp.nn.initializers - _residual_encoder._module.weight_ih_l0 2018-10-22 15:05:46,880 - INFO - allennlp.nn.initializers - _residual_encoder._module.weight_ih_l0_reverse 2018-10-22 15:05:46,880 - INFO - allennlp.nn.initializers - _self_attention._bias 2018-10-22 15:05:46,880 - INFO - allennlp.nn.initializers - _self_attention._weight_vector 2018-10-22 15:05:46,880 - INFO - allennlp.nn.initializers - _span_end_encoder._module.bias_hh_l0 2018-10-22 15:05:46,880 - INFO - allennlp.nn.initializers - _span_end_encoder._module.bias_hh_l0_reverse 2018-10-22 15:05:46,880 - INFO - allennlp.nn.initializers - _span_end_encoder._module.bias_ih_l0 2018-10-22 15:05:46,881 - INFO - allennlp.nn.initializers - _span_end_encoder._module.bias_ih_l0_reverse 2018-10-22 15:05:46,881 - INFO - allennlp.nn.initializers - _span_end_encoder._module.weight_hh_l0 2018-10-22 15:05:46,881 - INFO - allennlp.nn.initializers - _span_end_encoder._module.weight_hh_l0_reverse 2018-10-22 15:05:46,881 - INFO - allennlp.nn.initializers - _span_end_encoder._module.weight_ih_l0 2018-10-22 15:05:46,881 - INFO - allennlp.nn.initializers - _span_end_encoder._module.weight_ih_l0_reverse 2018-10-22 15:05:46,881 - INFO - allennlp.nn.initializers - _span_end_predictor._module.bias 2018-10-22 15:05:46,881 - INFO - allennlp.nn.initializers - _span_end_predictor._module.weight 2018-10-22 15:05:46,881 - INFO - allennlp.nn.initializers - _span_start_encoder._module.bias_hh_l0 2018-10-22 15:05:46,881 - INFO - allennlp.nn.initializers - _span_start_encoder._module.bias_hh_l0_reverse 2018-10-22 15:05:46,881 - INFO - allennlp.nn.initializers - _span_start_encoder._module.bias_ih_l0 2018-10-22 15:05:46,881 - INFO - allennlp.nn.initializers - _span_start_encoder._module.bias_ih_l0_reverse 2018-10-22 15:05:46,881 - INFO - allennlp.nn.initializers - _span_start_encoder._module.weight_hh_l0 2018-10-22 15:05:46,881 - INFO - allennlp.nn.initializers - _span_start_encoder._module.weight_hh_l0_reverse 2018-10-22 15:05:46,881 - INFO - allennlp.nn.initializers - _span_start_encoder._module.weight_ih_l0 2018-10-22 15:05:46,881 - INFO - allennlp.nn.initializers - _span_start_encoder._module.weight_ih_l0_reverse 2018-10-22 15:05:46,881 - INFO - allennlp.nn.initializers - _span_start_predictor._module.bias 2018-10-22 15:05:46,881 - INFO - allennlp.nn.initializers - _span_start_predictor._module.weight 2018-10-22 15:05:46,882 - INFO - allennlp.nn.initializers - _span_yesno_predictor._module.bias 2018-10-22 15:05:46,882 - INFO - allennlp.nn.initializers - _span_yesno_predictor._module.weight 2018-10-22 15:05:46,882 - INFO - allennlp.nn.initializers - _text_field_embedder.token_embedder_elmo._elmo._elmo_lstm._elmo_lstm.backward_layer_0.input_linearity.weight 2018-10-22 15:05:46,882 - INFO - allennlp.nn.initializers - _text_field_embedder.token_embedder_elmo._elmo._elmo_lstm._elmo_lstm.backward_layer_0.state_linearity.bias 2018-10-22 15:05:46,882 - INFO - allennlp.nn.initializers - _text_field_embedder.token_embedder_elmo._elmo._elmo_lstm._elmo_lstm.backward_layer_0.state_linearity.weight 2018-10-22 15:05:46,882 - INFO - allennlp.nn.initializers - _text_field_embedder.token_embedder_elmo._elmo._elmo_lstm._elmo_lstm.backward_layer_0.state_projection.weight 2018-10-22 15:05:46,882 - INFO - allennlp.nn.initializers - _text_field_embedder.token_embedder_elmo._elmo._elmo_lstm._elmo_lstm.backward_layer_1.input_linearity.weight 2018-10-22 15:05:46,882 - INFO - allennlp.nn.initializers - _text_field_embedder.token_embedder_elmo._elmo._elmo_lstm._elmo_lstm.backward_layer_1.state_linearity.bias 2018-10-22 15:05:46,882 - INFO - allennlp.nn.initializers - _text_field_embedder.token_embedder_elmo._elmo._elmo_lstm._elmo_lstm.backward_layer_1.state_linearity.weight 2018-10-22 15:05:46,882 - INFO - allennlp.nn.initializers - _text_field_embedder.token_embedder_elmo._elmo._elmo_lstm._elmo_lstm.backward_layer_1.state_projection.weight 2018-10-22 15:05:46,882 - INFO - allennlp.nn.initializers - _text_field_embedder.token_embedder_elmo._elmo._elmo_lstm._elmo_lstm.forward_layer_0.input_linearity.weight 2018-10-22 15:05:46,882 - INFO - allennlp.nn.initializers - _text_field_embedder.token_embedder_elmo._elmo._elmo_lstm._elmo_lstm.forward_layer_0.state_linearity.bias 2018-10-22 15:05:46,882 - INFO - allennlp.nn.initializers - _text_field_embedder.token_embedder_elmo._elmo._elmo_lstm._elmo_lstm.forward_layer_0.state_linearity.weight 2018-10-22 15:05:46,882 - INFO - allennlp.nn.initializers - _text_field_embedder.token_embedder_elmo._elmo._elmo_lstm._elmo_lstm.forward_layer_0.state_projection.weight 2018-10-22 15:05:46,882 - INFO - allennlp.nn.initializers - _text_field_embedder.token_embedder_elmo._elmo._elmo_lstm._elmo_lstm.forward_layer_1.input_linearity.weight 2018-10-22 15:05:46,882 - INFO - allennlp.nn.initializers - _text_field_embedder.token_embedder_elmo._elmo._elmo_lstm._elmo_lstm.forward_layer_1.state_linearity.bias 2018-10-22 15:05:46,883 - INFO - allennlp.nn.initializers - _text_field_embedder.token_embedder_elmo._elmo._elmo_lstm._elmo_lstm.forward_layer_1.state_linearity.weight 2018-10-22 15:05:46,883 - INFO - allennlp.nn.initializers - _text_field_embedder.token_embedder_elmo._elmo._elmo_lstm._elmo_lstm.forward_layer_1.state_projection.weight 2018-10-22 15:05:46,883 - INFO - allennlp.nn.initializers - _text_field_embedder.token_embedder_elmo._elmo._elmo_lstm._token_embedder._char_embedding_weights 2018-10-22 15:05:46,883 - INFO - allennlp.nn.initializers - _text_field_embedder.token_embedder_elmo._elmo._elmo_lstm._token_embedder._highways._layers.0.bias 2018-10-22 15:05:46,883 - INFO - allennlp.nn.initializers - _text_field_embedder.token_embedder_elmo._elmo._elmo_lstm._token_embedder._highways._layers.0.weight 2018-10-22 15:05:46,883 - INFO - allennlp.nn.initializers - _text_field_embedder.token_embedder_elmo._elmo._elmo_lstm._token_embedder._highways._layers.1.bias 2018-10-22 15:05:46,883 - INFO - allennlp.nn.initializers - _text_field_embedder.token_embedder_elmo._elmo._elmo_lstm._token_embedder._highways._layers.1.weight 2018-10-22 15:05:46,883 - INFO - allennlp.nn.initializers - _text_field_embedder.token_embedder_elmo._elmo._elmo_lstm._token_embedder._projection.bias 2018-10-22 15:05:46,883 - INFO - allennlp.nn.initializers - _text_field_embedder.token_embedder_elmo._elmo._elmo_lstm._token_embedder._projection.weight 2018-10-22 15:05:46,883 - INFO - allennlp.nn.initializers - _text_field_embedder.token_embedder_elmo._elmo._elmo_lstm._token_embedder.char_conv_0.bias 2018-10-22 15:05:46,883 - INFO - allennlp.nn.initializers - _text_field_embedder.token_embedder_elmo._elmo._elmo_lstm._token_embedder.char_conv_0.weight 2018-10-22 15:05:46,883 - INFO - allennlp.nn.initializers - _text_field_embedder.token_embedder_elmo._elmo._elmo_lstm._token_embedder.char_conv_1.bias 2018-10-22 15:05:46,883 - INFO - allennlp.nn.initializers - _text_field_embedder.token_embedder_elmo._elmo._elmo_lstm._token_embedder.char_conv_1.weight 2018-10-22 15:05:46,883 - INFO - allennlp.nn.initializers - _text_field_embedder.token_embedder_elmo._elmo._elmo_lstm._token_embedder.char_conv_2.bias 2018-10-22 15:05:46,883 - INFO - allennlp.nn.initializers - _text_field_embedder.token_embedder_elmo._elmo._elmo_lstm._token_embedder.char_conv_2.weight 2018-10-22 15:05:46,883 - INFO - allennlp.nn.initializers - _text_field_embedder.token_embedder_elmo._elmo._elmo_lstm._token_embedder.char_conv_3.bias 2018-10-22 15:05:46,883 - INFO - allennlp.nn.initializers - _text_field_embedder.token_embedder_elmo._elmo._elmo_lstm._token_embedder.char_conv_3.weight 2018-10-22 15:05:46,883 - INFO - allennlp.nn.initializers - _text_field_embedder.token_embedder_elmo._elmo._elmo_lstm._token_embedder.char_conv_4.bias 2018-10-22 15:05:46,884 - INFO - allennlp.nn.initializers - _text_field_embedder.token_embedder_elmo._elmo._elmo_lstm._token_embedder.char_conv_4.weight 2018-10-22 15:05:46,884 - INFO - allennlp.nn.initializers - _text_field_embedder.token_embedder_elmo._elmo._elmo_lstm._token_embedder.char_conv_5.bias 2018-10-22 15:05:46,884 - INFO - allennlp.nn.initializers - _text_field_embedder.token_embedder_elmo._elmo._elmo_lstm._token_embedder.char_conv_5.weight 2018-10-22 15:05:46,884 - INFO - allennlp.nn.initializers - _text_field_embedder.token_embedder_elmo._elmo._elmo_lstm._token_embedder.char_conv_6.bias 2018-10-22 15:05:46,884 - INFO - allennlp.nn.initializers - _text_field_embedder.token_embedder_elmo._elmo._elmo_lstm._token_embedder.char_conv_6.weight 2018-10-22 15:05:46,884 - INFO - allennlp.nn.initializers - _text_field_embedder.token_embedder_elmo._elmo.scalar_mix_0.gamma 2018-10-22 15:05:46,884 - INFO - allennlp.nn.initializers - _text_field_embedder.token_embedder_elmo._elmo.scalar_mix_0.scalar_parameters.0 2018-10-22 15:05:46,884 - INFO - allennlp.nn.initializers - _text_field_embedder.token_embedder_elmo._elmo.scalar_mix_0.scalar_parameters.1 2018-10-22 15:05:46,884 - INFO - allennlp.nn.initializers - _text_field_embedder.token_embedder_elmo._elmo.scalar_mix_0.scalar_parameters.2 2018-10-22 15:05:46,884 - INFO - allennlp.nn.initializers - _text_field_embedder.token_embedder_token_characters._embedding._module.weight 2018-10-22 15:05:46,884 - INFO - allennlp.nn.initializers - _text_field_embedder.token_embedder_token_characters._encoder._module.conv_layer_0.bias 2018-10-22 15:05:46,884 - INFO - allennlp.nn.initializers - _text_field_embedder.token_embedder_token_characters._encoder._module.conv_layer_0.weight 2018-10-22 15:05:46,888 - INFO - allennlp.common.from_params - instantiating class <class 'allennlp.data.iterators.data_iterator.DataIterator'> from params {'batch_size': 10, 'max_instances_in_memory': 1000, 'sorting_keys': [['question', 'num_fields'], ['passage', 'num_tokens']], 'type': 'bucket'} and extras {} 2018-10-22 15:05:46,888 - INFO - allennlp.common.params - iterator.type = bucket 2018-10-22 15:05:46,889 - INFO - allennlp.common.from_params - instantiating class <class 'allennlp.data.iterators.bucket_iterator.BucketIterator'> from params {'batch_size': 10, 'max_instances_in_memory': 1000, 'sorting_keys': [['question', 'num_fields'], ['passage', 'num_tokens']]} and extras {} 2018-10-22 15:05:46,889 - INFO - allennlp.common.params - iterator.sorting_keys = [['question', 'num_fields'], ['passage', 'num_tokens']] 2018-10-22 15:05:46,889 - INFO - allennlp.common.params - iterator.padding_noise = 0.1 2018-10-22 15:05:46,889 - INFO - allennlp.common.params - iterator.biggest_batch_first = False 2018-10-22 15:05:46,889 - INFO - allennlp.common.params - iterator.batch_size = 10 2018-10-22 15:05:46,889 - INFO - allennlp.common.params - iterator.instances_per_epoch = None 2018-10-22 15:05:46,889 - INFO - allennlp.common.params - iterator.max_instances_in_memory = 1000 2018-10-22 15:05:46,889 - INFO - allennlp.common.params - iterator.cache_instances = False 2018-10-22 15:05:46,889 - INFO - allennlp.common.params - iterator.track_epoch = False 2018-10-22 15:05:46,889 - INFO - allennlp.common.params - iterator.maximum_samples_per_batch = None 2018-10-22 15:05:46,889 - INFO - allennlp.common.from_params - instantiating class <class 'allennlp.data.iterators.data_iterator.DataIterator'> from params {'batch_size': 3, 'max_instances_in_memory': 1000, 'sorting_keys': [['question', 'num_fields'], ['passage', 'num_tokens']], 'type': 'bucket'} and extras {} 2018-10-22 15:05:46,890 - INFO - allennlp.common.params - validation_iterator.type = bucket 2018-10-22 15:05:46,890 - INFO - allennlp.common.from_params - instantiating class <class 'allennlp.data.iterators.bucket_iterator.BucketIterator'> from params {'batch_size': 3, 'max_instances_in_memory': 1000, 'sorting_keys': [['question', 'num_fields'], ['passage', 'num_tokens']]} and extras {} 2018-10-22 15:05:46,890 - INFO - allennlp.common.params - validation_iterator.sorting_keys = [['question', 'num_fields'], ['passage', 'num_tokens']] 2018-10-22 15:05:46,890 - INFO - allennlp.common.params - validation_iterator.padding_noise = 0.1 2018-10-22 15:05:46,890 - INFO - allennlp.common.params - validation_iterator.biggest_batch_first = False 2018-10-22 15:05:46,890 - INFO - allennlp.common.params - validation_iterator.batch_size = 3 2018-10-22 15:05:46,890 - INFO - allennlp.common.params - validation_iterator.instances_per_epoch = None 2018-10-22 15:05:46,890 - INFO - allennlp.common.params - validation_iterator.max_instances_in_memory = 1000 2018-10-22 15:05:46,890 - INFO - allennlp.common.params - validation_iterator.cache_instances = False 2018-10-22 15:05:46,890 - INFO - allennlp.common.params - validation_iterator.track_epoch = False 2018-10-22 15:05:46,890 - INFO - allennlp.common.params - validation_iterator.maximum_samples_per_batch = None 2018-10-22 15:05:46,890 - INFO - allennlp.common.params - trainer.no_grad = () 2018-10-22 15:05:46,891 - INFO - allennlp.commands.train - Following parameters are Frozen (without gradient): 2018-10-22 15:05:46,891 - INFO - allennlp.commands.train - _text_field_embedder.token_embedder_elmo._elmo._elmo_lstm._token_embedder._char_embedding_weights 2018-10-22 15:05:46,891 - INFO - allennlp.commands.train - _text_field_embedder.token_embedder_elmo._elmo._elmo_lstm._token_embedder.char_conv_0.weight 2018-10-22 15:05:46,892 - INFO - allennlp.commands.train - _text_field_embedder.token_embedder_elmo._elmo._elmo_lstm._token_embedder.char_conv_0.bias 2018-10-22 15:05:46,892 - INFO - allennlp.commands.train - _text_field_embedder.token_embedder_elmo._elmo._elmo_lstm._token_embedder.char_conv_1.weight 2018-10-22 15:05:46,892 - INFO - allennlp.commands.train - _text_field_embedder.token_embedder_elmo._elmo._elmo_lstm._token_embedder.char_conv_1.bias 2018-10-22 15:05:46,892 - INFO - allennlp.commands.train - _text_field_embedder.token_embedder_elmo._elmo._elmo_lstm._token_embedder.char_conv_2.weight 2018-10-22 15:05:46,892 - INFO - allennlp.commands.train - _text_field_embedder.token_embedder_elmo._elmo._elmo_lstm._token_embedder.char_conv_2.bias 2018-10-22 15:05:46,892 - INFO - allennlp.commands.train - _text_field_embedder.token_embedder_elmo._elmo._elmo_lstm._token_embedder.char_conv_3.weight 2018-10-22 15:05:46,892 - INFO - allennlp.commands.train - _text_field_embedder.token_embedder_elmo._elmo._elmo_lstm._token_embedder.char_conv_3.bias 2018-10-22 15:05:46,892 - INFO - allennlp.commands.train - _text_field_embedder.token_embedder_elmo._elmo._elmo_lstm._token_embedder.char_conv_4.weight 2018-10-22 15:05:46,892 - INFO - allennlp.commands.train - _text_field_embedder.token_embedder_elmo._elmo._elmo_lstm._token_embedder.char_conv_4.bias 2018-10-22 15:05:46,892 - INFO - allennlp.commands.train - _text_field_embedder.token_embedder_elmo._elmo._elmo_lstm._token_embedder.char_conv_5.weight 2018-10-22 15:05:46,892 - INFO - allennlp.commands.train - _text_field_embedder.token_embedder_elmo._elmo._elmo_lstm._token_embedder.char_conv_5.bias 2018-10-22 15:05:46,892 - INFO - allennlp.commands.train - _text_field_embedder.token_embedder_elmo._elmo._elmo_lstm._token_embedder.char_conv_6.weight 2018-10-22 15:05:46,892 - INFO - allennlp.commands.train - _text_field_embedder.token_embedder_elmo._elmo._elmo_lstm._token_embedder.char_conv_6.bias 2018-10-22 15:05:46,892 - INFO - allennlp.commands.train - _text_field_embedder.token_embedder_elmo._elmo._elmo_lstm._token_embedder._highways._layers.0.weight 2018-10-22 15:05:46,892 - INFO - allennlp.commands.train - _text_field_embedder.token_embedder_elmo._elmo._elmo_lstm._token_embedder._highways._layers.0.bias 2018-10-22 15:05:46,892 - INFO - allennlp.commands.train - _text_field_embedder.token_embedder_elmo._elmo._elmo_lstm._token_embedder._highways._layers.1.weight 2018-10-22 15:05:46,892 - INFO - allennlp.commands.train - _text_field_embedder.token_embedder_elmo._elmo._elmo_lstm._token_embedder._highways._layers.1.bias 2018-10-22 15:05:46,892 - INFO - allennlp.commands.train - _text_field_embedder.token_embedder_elmo._elmo._elmo_lstm._token_embedder._projection.weight 2018-10-22 15:05:46,892 - INFO - allennlp.commands.train - _text_field_embedder.token_embedder_elmo._elmo._elmo_lstm._token_embedder._projection.bias 2018-10-22 15:05:46,893 - INFO - allennlp.commands.train - _text_field_embedder.token_embedder_elmo._elmo._elmo_lstm._elmo_lstm.forward_layer_0.input_linearity.weight 2018-10-22 15:05:46,893 - INFO - allennlp.commands.train - _text_field_embedder.token_embedder_elmo._elmo._elmo_lstm._elmo_lstm.forward_layer_0.state_linearity.weight 2018-10-22 15:05:46,893 - INFO - allennlp.commands.train - _text_field_embedder.token_embedder_elmo._elmo._elmo_lstm._elmo_lstm.forward_layer_0.state_linearity.bias 2018-10-22 15:05:46,893 - INFO - allennlp.commands.train - _text_field_embedder.token_embedder_elmo._elmo._elmo_lstm._elmo_lstm.forward_layer_0.state_projection.weight 2018-10-22 15:05:46,893 - INFO - allennlp.commands.train - _text_field_embedder.token_embedder_elmo._elmo._elmo_lstm._elmo_lstm.backward_layer_0.input_linearity.weight 2018-10-22 15:05:46,893 - INFO - allennlp.commands.train - _text_field_embedder.token_embedder_elmo._elmo._elmo_lstm._elmo_lstm.backward_layer_0.state_linearity.weight 2018-10-22 15:05:46,893 - INFO - allennlp.commands.train - _text_field_embedder.token_embedder_elmo._elmo._elmo_lstm._elmo_lstm.backward_layer_0.state_linearity.bias 2018-10-22 15:05:46,893 - INFO - allennlp.commands.train - _text_field_embedder.token_embedder_elmo._elmo._elmo_lstm._elmo_lstm.backward_layer_0.state_projection.weight 2018-10-22 15:05:46,893 - INFO - allennlp.commands.train - _text_field_embedder.token_embedder_elmo._elmo._elmo_lstm._elmo_lstm.forward_layer_1.input_linearity.weight 2018-10-22 15:05:46,893 - INFO - allennlp.commands.train - _text_field_embedder.token_embedder_elmo._elmo._elmo_lstm._elmo_lstm.forward_layer_1.state_linearity.weight 2018-10-22 15:05:46,893 - INFO - allennlp.commands.train - _text_field_embedder.token_embedder_elmo._elmo._elmo_lstm._elmo_lstm.forward_layer_1.state_linearity.bias 2018-10-22 15:05:46,893 - INFO - allennlp.commands.train - _text_field_embedder.token_embedder_elmo._elmo._elmo_lstm._elmo_lstm.forward_layer_1.state_projection.weight 2018-10-22 15:05:46,893 - INFO - allennlp.commands.train - _text_field_embedder.token_embedder_elmo._elmo._elmo_lstm._elmo_lstm.backward_layer_1.input_linearity.weight 2018-10-22 15:05:46,893 - INFO - allennlp.commands.train - _text_field_embedder.token_embedder_elmo._elmo._elmo_lstm._elmo_lstm.backward_layer_1.state_linearity.weight 2018-10-22 15:05:46,893 - INFO - allennlp.commands.train - _text_field_embedder.token_embedder_elmo._elmo._elmo_lstm._elmo_lstm.backward_layer_1.state_linearity.bias 2018-10-22 15:05:46,893 - INFO - allennlp.commands.train - _text_field_embedder.token_embedder_elmo._elmo._elmo_lstm._elmo_lstm.backward_layer_1.state_projection.weight 2018-10-22 15:05:46,893 - INFO - allennlp.commands.train - Following parameters are Tunable (with gradient): 2018-10-22 15:05:46,894 - INFO - allennlp.commands.train - _text_field_embedder.token_embedder_elmo._elmo.scalar_mix_0.gamma 2018-10-22 15:05:46,894 - INFO - allennlp.commands.train - _text_field_embedder.token_embedder_elmo._elmo.scalar_mix_0.scalar_parameters.0 2018-10-22 15:05:46,894 - INFO - allennlp.commands.train - _text_field_embedder.token_embedder_elmo._elmo.scalar_mix_0.scalar_parameters.1 2018-10-22 15:05:46,894 - INFO - allennlp.commands.train - _text_field_embedder.token_embedder_elmo._elmo.scalar_mix_0.scalar_parameters.2 2018-10-22 15:05:46,894 - INFO - allennlp.commands.train - _text_field_embedder.token_embedder_token_characters._embedding._module.weight 2018-10-22 15:05:46,894 - INFO - allennlp.commands.train - _text_field_embedder.token_embedder_token_characters._encoder._module.conv_layer_0.weight 2018-10-22 15:05:46,894 - INFO - allennlp.commands.train - _text_field_embedder.token_embedder_token_characters._encoder._module.conv_layer_0.bias 2018-10-22 15:05:46,894 - INFO - allennlp.commands.train - _phrase_layer._module.weight_ih_l0 2018-10-22 15:05:46,894 - INFO - allennlp.commands.train - _phrase_layer._module.weight_hh_l0 2018-10-22 15:05:46,894 - INFO - allennlp.commands.train - _phrase_layer._module.bias_ih_l0 2018-10-22 15:05:46,894 - INFO - allennlp.commands.train - _phrase_layer._module.bias_hh_l0 2018-10-22 15:05:46,894 - INFO - allennlp.commands.train - _phrase_layer._module.weight_ih_l0_reverse 2018-10-22 15:05:46,894 - INFO - allennlp.commands.train - _phrase_layer._module.weight_hh_l0_reverse 2018-10-22 15:05:46,894 - INFO - allennlp.commands.train - _phrase_layer._module.bias_ih_l0_reverse 2018-10-22 15:05:46,894 - INFO - allennlp.commands.train - _phrase_layer._module.bias_hh_l0_reverse 2018-10-22 15:05:46,894 - INFO - allennlp.commands.train - _matrix_attention._weight_vector 2018-10-22 15:05:46,894 - INFO - allennlp.commands.train - _matrix_attention._bias 2018-10-22 15:05:46,894 - INFO - allennlp.commands.train - _merge_atten._module.weight 2018-10-22 15:05:46,894 - INFO - allennlp.commands.train - _merge_atten._module.bias 2018-10-22 15:05:46,894 - INFO - allennlp.commands.train - _residual_encoder._module.weight_ih_l0 2018-10-22 15:05:46,895 - INFO - allennlp.commands.train - _residual_encoder._module.weight_hh_l0 2018-10-22 15:05:46,895 - INFO - allennlp.commands.train - _residual_encoder._module.bias_ih_l0 2018-10-22 15:05:46,895 - INFO - allennlp.commands.train - _residual_encoder._module.bias_hh_l0 2018-10-22 15:05:46,895 - INFO - allennlp.commands.train - _residual_encoder._module.weight_ih_l0_reverse 2018-10-22 15:05:46,895 - INFO - allennlp.commands.train - _residual_encoder._module.weight_hh_l0_reverse 2018-10-22 15:05:46,895 - INFO - allennlp.commands.train - _residual_encoder._module.bias_ih_l0_reverse 2018-10-22 15:05:46,895 - INFO - allennlp.commands.train - _residual_encoder._module.bias_hh_l0_reverse 2018-10-22 15:05:46,895 - INFO - allennlp.commands.train - _question_num_marker.weight 2018-10-22 15:05:46,895 - INFO - allennlp.commands.train - _prev_ans_marker.weight 2018-10-22 15:05:46,895 - INFO - allennlp.commands.train - _self_attention._weight_vector 2018-10-22 15:05:46,895 - INFO - allennlp.commands.train - _self_attention._bias 2018-10-22 15:05:46,895 - INFO - allennlp.commands.train - _followup_lin.weight 2018-10-22 15:05:46,895 - INFO - allennlp.commands.train - _followup_lin.bias 2018-10-22 15:05:46,895 - INFO - allennlp.commands.train - _merge_self_attention._module.weight 2018-10-22 15:05:46,895 - INFO - allennlp.commands.train - _merge_self_attention._module.bias 2018-10-22 15:05:46,895 - INFO - allennlp.commands.train - _span_start_encoder._module.weight_ih_l0 2018-10-22 15:05:46,895 - INFO - allennlp.commands.train - _span_start_encoder._module.weight_hh_l0 2018-10-22 15:05:46,895 - INFO - allennlp.commands.train - _span_start_encoder._module.bias_ih_l0 2018-10-22 15:05:46,895 - INFO - allennlp.commands.train - _span_start_encoder._module.bias_hh_l0 2018-10-22 15:05:46,896 - INFO - allennlp.commands.train - _span_start_encoder._module.weight_ih_l0_reverse 2018-10-22 15:05:46,896 - INFO - allennlp.commands.train - _span_start_encoder._module.weight_hh_l0_reverse 2018-10-22 15:05:46,896 - INFO - allennlp.commands.train - _span_start_encoder._module.bias_ih_l0_reverse 2018-10-22 15:05:46,896 - INFO - allennlp.commands.train - _span_start_encoder._module.bias_hh_l0_reverse 2018-10-22 15:05:46,896 - INFO - allennlp.commands.train - _span_end_encoder._module.weight_ih_l0 2018-10-22 15:05:46,896 - INFO - allennlp.commands.train - _span_end_encoder._module.weight_hh_l0 2018-10-22 15:05:46,896 - INFO - allennlp.commands.train - _span_end_encoder._module.bias_ih_l0 2018-10-22 15:05:46,896 - INFO - allennlp.commands.train - _span_end_encoder._module.bias_hh_l0 2018-10-22 15:05:46,896 - INFO - allennlp.commands.train - _span_end_encoder._module.weight_ih_l0_reverse 2018-10-22 15:05:46,896 - INFO - allennlp.commands.train - _span_end_encoder._module.weight_hh_l0_reverse 2018-10-22 15:05:46,896 - INFO - allennlp.commands.train - _span_end_encoder._module.bias_ih_l0_reverse 2018-10-22 15:05:46,896 - INFO - allennlp.commands.train - _span_end_encoder._module.bias_hh_l0_reverse 2018-10-22 15:05:46,896 - INFO - allennlp.commands.train - _span_start_predictor._module.weight 2018-10-22 15:05:46,896 - INFO - allennlp.commands.train - _span_start_predictor._module.bias 2018-10-22 15:05:46,896 - INFO - allennlp.commands.train - _span_end_predictor._module.weight 2018-10-22 15:05:46,896 - INFO - allennlp.commands.train - _span_end_predictor._module.bias 2018-10-22 15:05:46,896 - INFO - allennlp.commands.train - _span_yesno_predictor._module.weight 2018-10-22 15:05:46,897 - INFO - allennlp.commands.train - _span_yesno_predictor._module.bias 2018-10-22 15:05:46,897 - INFO - allennlp.common.params - trainer.type = default 2018-10-22 15:05:46,897 - INFO - allennlp.common.registrable - instantiating registered subclass default of <class 'allennlp.training.trainer.Trainer'> 2018-10-22 15:05:46,897 - INFO - allennlp.common.params - trainer.patience = 10 2018-10-22 15:05:46,897 - INFO - allennlp.common.params - trainer.validation_metric = +f1 2018-10-22 15:05:46,897 - INFO - allennlp.common.params - trainer.shuffle = True 2018-10-22 15:05:46,897 - INFO - allennlp.common.params - trainer.num_epochs = 30 2018-10-22 15:05:46,897 - INFO - allennlp.common.params - trainer.cuda_device = 0 2018-10-22 15:05:46,897 - INFO - allennlp.common.params - trainer.grad_norm = None 2018-10-22 15:05:46,897 - INFO - allennlp.common.params - trainer.grad_clipping = None 2018-10-22 15:05:58,697 - INFO - allennlp.common.params - trainer.optimizer.type = sgd 2018-10-22 15:05:58,697 - INFO - allennlp.common.params - trainer.optimizer.parameter_groups = None 2018-10-22 15:05:58,697 - INFO - allennlp.training.optimizers - Number of trainable parameters: 1698084 2018-10-22 15:05:58,698 - INFO - allennlp.common.registrable - instantiating registered subclass sgd of <class 'allennlp.training.optimizers.Optimizer'> 2018-10-22 15:05:58,698 - INFO - allennlp.common.params - Converting Params object to dict; logging of default values will not occur when dictionary parameters are used subsequently. 2018-10-22 15:05:58,698 - INFO - allennlp.common.params - CURRENTLY DEFINED PARAMETERS: 2018-10-22 15:05:58,698 - INFO - allennlp.common.params - trainer.optimizer.lr = 0.01 2018-10-22 15:05:58,698 - INFO - allennlp.common.params - trainer.optimizer.momentum = 0.9 2018-10-22 15:05:58,698 - INFO - allennlp.common.params - trainer.learning_rate_scheduler.type = reduce_on_plateau 2018-10-22 15:05:58,698 - INFO - allennlp.common.registrable - instantiating registered subclass reduce_on_plateau of <class 'allennlp.training.learning_rate_schedulers.LearningRateScheduler'> 2018-10-22 15:05:58,698 - INFO - allennlp.common.params - Converting Params object to dict; logging of default values will not occur when dictionary parameters are used subsequently. 2018-10-22 15:05:58,698 - INFO - allennlp.common.params - CURRENTLY DEFINED PARAMETERS: 2018-10-22 15:05:58,698 - INFO - allennlp.common.params - trainer.learning_rate_scheduler.factor = 0.5 2018-10-22 15:05:58,698 - INFO - allennlp.common.params - trainer.learning_rate_scheduler.mode = max 2018-10-22 15:05:58,698 - INFO - allennlp.common.params - trainer.learning_rate_scheduler.patience = 3 2018-10-22 15:05:58,698 - INFO - allennlp.common.params - trainer.num_serialized_models_to_keep = 20 2018-10-22 15:05:58,698 - INFO - allennlp.common.params - trainer.keep_serialized_model_every_num_seconds = None 2018-10-22 15:05:58,699 - INFO - allennlp.common.params - trainer.model_save_interval = None 2018-10-22 15:05:58,699 - INFO - allennlp.common.params - trainer.summary_interval = 100 2018-10-22 15:05:58,699 - INFO - allennlp.common.params - trainer.histogram_interval = None 2018-10-22 15:05:58,699 - INFO - allennlp.common.params - trainer.should_log_parameter_statistics = True 2018-10-22 15:05:58,699 - INFO - allennlp.common.params - trainer.should_log_learning_rate = False 2018-10-22 15:05:58,706 - INFO - allennlp.common.params - evaluate_on_test = False 2018-10-22 15:05:58,706 - INFO - allennlp.training.trainer - Beginning training. 2018-10-22 15:05:58,707 - INFO - allennlp.training.trainer - Epoch 0/29 2018-10-22 15:05:58,707 - INFO - allennlp.training.trainer - Peak CPU memory usage MB: 1861.14 2018-10-22 15:05:58,816 - INFO - allennlp.training.trainer - GPU 0 memory usage MB: 2215 2018-10-22 15:05:58,817 - INFO - allennlp.training.trainer - GPU 1 memory usage MB: 8178 2018-10-22 15:05:58,817 - INFO - allennlp.training.trainer - GPU 2 memory usage MB: 9517 2018-10-22 15:05:58,817 - INFO - allennlp.training.trainer - GPU 3 memory usage MB: 8624 2018-10-22 15:05:58,817 - INFO - allennlp.training.trainer - GPU 4 memory usage MB: 2419 2018-10-22 15:05:58,817 - INFO - allennlp.training.trainer - GPU 5 memory usage MB: 11288 2018-10-22 15:05:58,817 - INFO - allennlp.training.trainer - GPU 6 memory usage MB: 666 2018-10-22 15:05:58,817 - INFO - allennlp.training.trainer - GPU 7 memory usage MB: 0 2018-10-22 15:05:58,818 - INFO - allennlp.training.trainer - Training 0%| | 0/1 [00:00<?, ?it/s]2018-10-22 15:05:58,883 - INFO - allennlp.data.dataset_readers.reading_comprehension.quac - Reading file at /u/yyu/.allennlp/datasets/359c6ea221dd5c83aede3df1c193f3ba60313e4ddd9e35b70eb6bfc0563812b4.9513ad45c4f7132b914656baa7c5ae9c29c7758261068734be87a06bc7f8e2a8 2018-10-22 15:05:59,651 - INFO - allennlp.data.dataset_readers.reading_comprehension.quac - Reading the dataset Traceback (most recent call last): File "/u/yyu/stor/anaconda3-6/envs/allennlp/lib/python3.6/runpy.py", line 193, in _run_module_as_main "main", mod_spec) File "/u/yyu/stor/anaconda3-6/envs/allennlp/lib/python3.6/runpy.py", line 85, in _run_code exec(code, run_globals) File "/u/yyu/wksp1/allennlp/allennlp/run.py", line 18, in main(prog="allennlp") File "/u/yyu/wksp1/allennlp/allennlp/commands/init.py", line 72, in main args.func(args) File "/u/yyu/wksp1/allennlp/allennlp/commands/train.py", line 101, in train_model_from_args args.recover) File "/u/yyu/wksp1/allennlp/allennlp/commands/train.py", line 131, in train_model_from_file return train_model(params, serialization_dir, file_friendly_logging, recover) File "/u/yyu/wksp1/allennlp/allennlp/commands/train.py", line 324, in train_model metrics = trainer.train() File "/u/yyu/wksp1/allennlp/allennlp/training/trainer.py", line 751, in train train_metrics = self._train_epoch(epoch) File "/u/yyu/wksp1/allennlp/allennlp/training/trainer.py", line 494, in _train_epoch loss = self.batch_loss(batch, for_training=True) File "/u/yyu/wksp1/allennlp/allennlp/training/trainer.py", line 429, in batch_loss output_dict = self.model(batch) File "/u/yyu/stor/anaconda3-6/envs/allennlp/lib/python3.6/site-packages/torch/nn/modules/module.py", line 477, in call result = self.forward(*input, *kwargs) File "/u/yyu/wksp1/allennlp/allennlp/models/reading_comprehension/dialog_qa.py", line 229, in forward repeated_passage_mask)) File "/u/yyu/stor/anaconda3-6/envs/allennlp/lib/python3.6/site-packages/torch/nn/modules/module.py", line 477, in call result = self.forward(input, kwargs) File "/u/yyu/wksp1/allennlp/allennlp/modules/seq2seq_encoders/pytorch_seq2seq_wrapper.py", line 83, in forward self.sort_and_run_forward(self._module, inputs, mask, hidden_state) File "/u/yyu/wksp1/allennlp/allennlp/modules/encoder_base.py", line 116, in sort_and_run_forward module_output, final_states = module(packed_sequence_input, initial_states) File "/u/yyu/stor/anaconda3-6/envs/allennlp/lib/python3.6/site-packages/torch/nn/modules/module.py", line 477, in call result = self.forward(*input, **kwargs) File "/u/yyu/stor/anaconda3-6/envs/allennlp/lib/python3.6/site-packages/torch/nn/modules/rnn.py", line 178, in forward self.check_forward_args(input, hx, batch_sizes) File "/u/yyu/stor/anaconda3-6/envs/allennlp/lib/python3.6/site-packages/torch/nn/modules/rnn.py", line 130, in check_forward_args self.input_size, input.size(-1))) RuntimeError: input.size(-1) must be equal to input_size. Expected 1124, got 1144

allenai / allennlp

dimension problem when running dialog_qa model on Quac #1931