Flan-UL2 compilation failure

chintanckg commented 8 months ago

System Info

- `optimum` version: 1.16.2
- `transformers` version: 4.36.2
- Platform: Linux-5.15.0-1051-aws-x86_64-with-glibc2.29
- Python version: 3.8.10
- Huggingface_hub version: 0.20.3

Who can help?

@JingyaHuang

Error Logs:

2024-02-13T11:11:01Z Running SundaSizeTiling
2024-02-13T11:11:06Z SundaSizeTiling finished after 4.391 seconds
2024-02-13T11:11:06Z OrigLayoutTilingPipeline finished after 9.226 seconds
2024-02-13T11:11:06Z Running TilingProfiler
root = /usr/lib/python3.8/multiprocessing/process.py
root = /usr/lib/python3.8/multiprocessing
root = /usr/lib/python3.8
root = /usr/lib
root = /usr
2024-02-13T11:11:06Z TilingProfiler finished after 0.317 seconds
[XTP002] Too many instructions after unroll for function sg0000! - Compiling under --optlevel=1 may result in smaller graphs. If you are using a transformer model, try using a smaller context_length_estimate value.
2024-02-13T11:11:10Z 
2024-02-13T11:11:10Z Diagnostic information:
2024-02-13T11:11:10Z   NeuronX Compiler version 2.12.68.0+4480452af
2024-02-13T11:11:10Z   
2024-02-13T11:11:10Z   Python version 3.8.10
2024-02-13T11:11:10Z   HWM version 2.12.0.0-422c9037c
2024-02-13T11:11:10Z   NumPy version 1.24.4
2024-02-13T11:11:10Z   
2024-02-13T11:11:10Z   Running on AMI ami-074c1cd522c5ede73
2024-02-13T11:11:10Z   Running in region euw1-az2
2024-02-13T11:11:10Z 
2024-02-13T11:11:10Z Diagnostic logs stored in /home/ubuntu/log-neuron-cc.txt
An error occured when trying to trace encoder with the error message: neuronx-cc failed with 70.
The export is failed and encoder neuron model won't be stored.
***** Compiling decoder *****
/home/ubuntu/.local/lib/python3.8/site-packages/torch_neuronx/xla_impl/hlo_conversion.py:143: UserWarning: Received an input tensor that was unused. Tensor will be ignored. (index=2, shape=torch.Size([4, 2048, 4096]), dtype=torch.float32)
  warnings.warn(
/home/ubuntu/.local/lib/python3.8/site-packages/torch_neuronx/xla_impl/hlo_conversion.py:143: UserWarning: Received an input tensor that was unused. Tensor will be ignored. (index=4, shape=torch.Size([1]), dtype=torch.int64)
  warnings.warn(
/home/ubuntu/.local/lib/python3.8/site-packages/torch_neuronx/xla_impl/hlo_conversion.py:143: UserWarning: Received an input tensor that was unused. Tensor will be ignored. (index=5, shape=torch.Size([1]), dtype=torch.float32)
  warnings.warn(

Information

[ ] The official example scripts
[ ] My own modified scripts

Tasks

[X] An officially supported task in the examples folder (such as GLUE/SQuAD, ...)
[ ] My own task or dataset (give details below)

Reproduction (minimal, reproducible, runnable)

optimum-cli export neuron -m google/flan-ul2 --batch_size 4 --sequence_length 2048 --auto_cast_type bf16 ./flan-ul2

Expected behavior

Successful Compilation of Flan-UL2 with 2048 context length

chintanckg commented 8 months ago

Gently brining this to notice of @dacorvo and @JingyaHuang

JingyaHuang commented 8 months ago

Thanks @chintanckg, thanks for raising the issue. Did both the compilation of encoder and decoder failed(I saw the encoder failed but can't see the status of decoder). Will try to reproduce on my end and keep you posted.

chintanckg commented 8 months ago

I did not capture that; I will run it again and see if decoder fails as well.

chintanckg commented 7 months ago

@JingyaHuang : Decoder fails as well. One time it failed abrubtly, when I tried again it failed with below logs:

2024-02-15T16:33:27Z Running coloring_allocator_dram
2024-02-15T16:33:40Z coloring_allocator_dram finished after 12.772 seconds
2024-02-15T16:33:40Z Running address_rotation_dram
2024-02-15T16:33:44Z address_rotation_dram finished after 3.463 seconds
2024-02-15T16:33:44Z Running tensorcopy_accel
2024-02-15T16:33:44Z tensorcopy_accel finished after 0.329 seconds
2024-02-15T16:33:44Z Running peephole_opts
2024-02-15T16:33:45Z peephole_opts finished after 0.711 seconds
2024-02-15T16:33:45Z Running lower_kernel
2024-02-15T16:33:46Z lower_kernel finished after 0.355 seconds
2024-02-15T16:33:46Z Running build_fdeps
[F139] neuronx-cc terminated abnormally - Please open a support ticket at https://github.com/aws-neuron/aws-neuron-sdk/issues/new
2024-02-15T16:33:50Z 
2024-02-15T16:33:50Z Diagnostic information:
2024-02-15T16:33:50Z   NeuronX Compiler version 2.12.68.0+4480452af
2024-02-15T16:33:50Z   
2024-02-15T16:33:50Z   Python version 3.8.10
2024-02-15T16:33:50Z   HWM version 2.12.0.0-422c9037c
2024-02-15T16:33:50Z   NumPy version 1.24.4
2024-02-15T16:33:50Z   
2024-02-15T16:33:50Z   Running on AMI ami-074c1cd522c5ede73
2024-02-15T16:33:50Z   Running in region euw1-az2
2024-02-15T16:33:50Z 
2024-02-15T16:33:50Z Diagnostic logs stored in /home/ubuntu/log-neuron-cc.txt
An error occured when trying to trace encoder with the error message: neuronx-cc failed with 70.
The export is failed and encoder neuron model won't be stored.
***** Compiling decoder *****
/home/ubuntu/.local/lib/python3.8/site-packages/torch_neuronx/xla_impl/hlo_conversion.py:143: UserWarning: Received an input tensor that was unused. Tensor will be ignored. (index=2, shape=torch.Size([1, 2048, 4096]), dtype=torch.float32)
  warnings.warn(
/home/ubuntu/.local/lib/python3.8/site-packages/torch_neuronx/xla_impl/hlo_conversion.py:143: UserWarning: Received an input tensor that was unused. Tensor will be ignored. (index=4, shape=torch.Size([1]), dtype=torch.int64)
  warnings.warn(
/home/ubuntu/.local/lib/python3.8/site-packages/torch_neuronx/xla_impl/hlo_conversion.py:143: UserWarning: Received an input tensor that was unused. Tensor will be ignored. (index=5, shape=torch.Size([1]), dtype=torch.float32)

chintanckg commented 7 months ago

@JingyaHuang -- A gentle reminder!

JingyaHuang commented 7 months ago

[Updated] Hi @chintanckg, I can reproduce the error, the compilation could have been killed on inf2.xlarge or inf2.8xlarge(the one I used during my 1st experiment) since Flan-UL2 is large, you might not have enough memory for the compilation or enough space on your disk to write the model. (also tested with inf2.24xlarge the compilation passed, you don't need inf2 instance for compiling a model for neuron, a CPU-only instance will be fine) But anyway, even the compilation is successful, to run a large model like that on Neuron devices, we need to leverage the tensor parallelism to make it happen (with fixed tensor parallelism degree during the compilation). For that, we need to leverage the neuronx_distributed(example for t5 here), which is not yet integrated for the inference of T5 but on our roadmap.

Paste some logs below during my experiment on inf2.24xlarge:

Compilation log

``` ~/optimum-neuron$ optimum-cli export neuron --model google/flan-ul2 --task text2tex t-generation --batch_size 1 --sequence_length 128 --num_beams 4 flan_ul2_neuron/ config.json: 100%|████████████████████████████████████████████████████████████████████████████████| 784/784 [00:00<00:00, 291kB/s] pytorch_model.bin.index.json: 100%|██████████████████████████████████████████████████████████| 67.5k/67.5k [00:00<00:00, 26.6MB/s] pytorch_model-00001-of-00008.bin: 100%|██████████████████████████████████████████████████████| 4.69G/4.69G [01:14<00:00, 63.2MB/s] pytorch_model-00002-of-00008.bin: 100%|██████████████████████████████████████████████████████| 4.97G/4.97G [01:40<00:00, 49.2MB/s] pytorch_model-00003-of-00008.bin: 100%|██████████████████████████████████████████████████████| 4.97G/4.97G [01:53<00:00, 43.7MB/s] pytorch_model-00004-of-00008.bin: 100%|███████████████████████████████████████████████████████| 4.96G/4.96G [00:09<00:00, 512MB/s] pytorch_model-00005-of-00008.bin: 100%|███████████████████████████████████████████████████████| 5.00G/5.00G [00:09<00:00, 530MB/s] pytorch_model-00006-of-00008.bin: 100%|███████████████████████████████████████████████████████| 4.93G/4.93G [00:09<00:00, 505MB/s] pytorch_model-00007-of-00008.bin: 100%|███████████████████████████████████████████████████████| 5.00G/5.00G [00:10<00:00, 462MB/s] pytorch_model-00008-of-00008.bin: 100%|███████████████████████████████████████████████████████| 4.93G/4.93G [00:09<00:00, 498MB/s] Downloading shards: 100%|███████████████████████████████████████████████████████████████████████████| 8/8 [05:39<00:00, 42.45s/it] Loading checkpoint shards: 100%|████████████████████████████████████████████████████████████████████| 8/8 [00:16<00:00, 2.00s/it] tokenizer_config.json: 100%|██████████████████████████████████████████████████████████████████| 2.35k/2.35k [00:00<00:00, 842kB/s] spiece.model: 100%|████████████████████████████████████████████████████████████████████████████| 792k/792k [00:00<00:00, 8.55MB/s] tokenizer.json: 100%|████████████████████████████████████████████████████████████████████████| 2.43M/2.43M [00:00<00:00, 25.1MB/s] added_tokens.json: 100%|██████████████████████████████████████████████████████████████████████████| 665/665 [00:00<00:00, 997kB/s] special_tokens_map.json: 100%|███████████████████████████████████████████████████████████████| 2.20k/2.20k [00:00<00:00, 7.90MB/s] ***** Compiling encoder ***** 2024-02-20T10:18:43Z Compilation is optimized for best performance and compilation time. For faster compilation time please use -O1 2024-02-20T10:18:56Z Running DoNothing 2024-02-20T10:18:57Z DoNothing finished after 0.000 seconds 2024-02-20T10:18:57Z Running AliasDependencyInduction 2024-02-20T10:18:57Z AliasDependencyInduction finished after 0.007 seconds 2024-02-20T10:18:57Z Running CanonicalizeIR 2024-02-20T10:18:57Z CanonicalizeIR finished after 0.027 seconds 2024-02-20T10:18:57Z Running LegalizeCCOpLayout 2024-02-20T10:18:57Z LegalizeCCOpLayout finished after 0.029 seconds 2024-02-20T10:18:57Z Running ExpandBatchNorm 2024-02-20T10:18:57Z ExpandBatchNorm finished after 0.030 seconds 2024-02-20T10:18:57Z Running ResolveComplicatePredicates 2024-02-20T10:18:58Z ResolveComplicatePredicates finished after 0.025 seconds 2024-02-20T10:18:58Z Running AffinePredicateResolution 2024-02-20T10:18:58Z AffinePredicateResolution finished after 0.028 seconds 2024-02-20T10:18:58Z Running EliminateDivs 2024-02-20T10:18:58Z EliminateDivs finished after 0.027 seconds 2024-02-20T10:18:58Z Running PerfectLoopNest 2024-02-20T10:18:58Z PerfectLoopNest finished after 0.028 seconds 2024-02-20T10:18:58Z Running Simplifier 2024-02-20T10:18:58Z Simplifier finished after 0.144 seconds 2024-02-20T10:18:58Z Running GenericAccessSimplifier 2024-02-20T10:18:59Z GenericAccessSimplifier finished after 0.028 seconds 2024-02-20T10:18:59Z Running TCTransform 2024-02-20T10:18:59Z TCTransform finished after 0.067 seconds 2024-02-20T10:18:59Z Running CommuteConcat 2024-02-20T10:18:59Z CommuteConcat finished after 0.026 seconds 2024-02-20T10:18:59Z Running LowerTensorOp 2024-02-20T10:19:00Z LowerTensorOp finished after 0.786 seconds 2024-02-20T10:19:00Z Running TCTransform 2024-02-20T10:19:00Z TCTransform finished after 0.061 seconds 2024-02-20T10:19:00Z Running CanonicalizeIR 2024-02-20T10:19:00Z CanonicalizeIR finished after 0.049 seconds 2024-02-20T10:19:00Z Running TensorOpFusion 2024-02-20T10:19:00Z TensorOpFusion finished after 0.076 seconds 2024-02-20T10:19:00Z Running TensorOpTransform 2024-02-20T10:19:01Z TensorOpTransform finished after 0.551 seconds 2024-02-20T10:19:01Z Running LateLowerTensorOp 2024-02-20T10:19:01Z LateLowerTensorOp finished after 0.159 seconds 2024-02-20T10:19:01Z Running MemcpyElimination 2024-02-20T10:19:05Z MemcpyElimination finished after 3.672 seconds 2024-02-20T10:19:05Z Running LoopFusion 2024-02-20T10:19:08Z LoopFusion finished after 3.173 seconds 2024-02-20T10:19:08Z Running Simplifier 2024-02-20T10:19:09Z Simplifier finished after 0.427 seconds 2024-02-20T10:19:09Z Running Delinearization 2024-02-20T10:19:09Z Delinearization finished after 0.137 seconds 2024-02-20T10:19:09Z Running AliasDependencyElimination 2024-02-20T10:19:09Z AliasDependencyElimination finished after 0.029 seconds 2024-02-20T10:19:09Z Running DeadStoreElimination 2024-02-20T10:19:13Z DeadStoreElimination finished after 3.918 seconds 2024-02-20T10:19:13Z Running AliasDependencyInduction 2024-02-20T10:19:14Z AliasDependencyInduction finished after 0.008 seconds 2024-02-20T10:19:14Z Running Simplifier 2024-02-20T10:19:14Z Simplifier finished after 0.158 seconds 2024-02-20T10:19:14Z Running LICM 2024-02-20T10:19:14Z LICM finished after 0.064 seconds 2024-02-20T10:19:14Z Running Delinearization 2024-02-20T10:19:14Z Delinearization finished after 0.048 seconds 2024-02-20T10:19:14Z Running LoopFusion 2024-02-20T10:19:15Z LoopFusion finished after 0.764 seconds 2024-02-20T10:19:15Z Running SimplifySlice 2024-02-20T10:19:15Z SimplifySlice finished after 0.024 seconds 2024-02-20T10:19:15Z Running LICM 2024-02-20T10:19:15Z LICM finished after 0.040 seconds 2024-02-20T10:19:15Z Running Simplifier 2024-02-20T10:19:16Z Simplifier finished after 0.145 seconds 2024-02-20T10:19:16Z Running ValueNumbering 2024-02-20T10:19:16Z ValueNumbering finished after 0.066 seconds 2024-02-20T10:19:16Z Running LICM 2024-02-20T10:19:16Z LICM finished after 0.038 seconds 2024-02-20T10:19:16Z Running PadElimination 2024-02-20T10:19:16Z PadElimination finished after 0.002 seconds 2024-02-20T10:19:16Z Running Delinearization 2024-02-20T10:19:16Z Delinearization finished after 0.041 seconds 2024-02-20T10:19:16Z Running LoopFusion 2024-02-20T10:19:17Z LoopFusion finished after 0.569 seconds 2024-02-20T10:19:17Z Running GenericAccessSimplifier 2024-02-20T10:19:17Z GenericAccessSimplifier finished after 0.025 seconds 2024-02-20T10:19:17Z Running Simplifier 2024-02-20T10:19:17Z Simplifier finished after 0.148 seconds 2024-02-20T10:19:17Z Running LICM 2024-02-20T10:19:17Z LICM finished after 0.039 seconds 2024-02-20T10:19:17Z Running ValueNumbering 2024-02-20T10:19:18Z ValueNumbering finished after 0.052 seconds 2024-02-20T10:19:18Z Running TCTransform 2024-02-20T10:19:18Z TCTransform finished after 0.030 seconds 2024-02-20T10:19:18Z Running CommuteConcat 2024-02-20T10:19:18Z CommuteConcat finished after 0.026 seconds 2024-02-20T10:19:18Z Running RecognizeOpIdiom 2024-02-20T10:19:18Z RecognizeOpIdiom finished after 0.194 seconds 2024-02-20T10:19:18Z Running MaskPropagation 2024-02-20T10:19:18Z MaskPropagation finished after 0.057 seconds 2024-02-20T10:19:18Z Running Recompute 2024-02-20T10:19:18Z Recompute finished after 0.003 seconds 2024-02-20T10:19:18Z Running DeadCodeElimination 2024-02-20T10:19:19Z DeadCodeElimination finished after 0.027 seconds 2024-02-20T10:19:19Z Running DoNothing 2024-02-20T10:19:19Z DoNothing finished after 0.000 seconds 2024-02-20T10:19:19Z Running MutateDataType 2024-02-20T10:19:19Z MutateDataType finished after 0.022 seconds 2024-02-20T10:19:19Z Running AutoCastTCInputs 2024-02-20T10:19:19Z AutoCastTCInputs finished after 0.080 seconds 2024-02-20T10:19:19Z Running GenericAccessSimplifier 2024-02-20T10:19:19Z GenericAccessSimplifier finished after 0.025 seconds 2024-02-20T10:19:19Z Running Simplifier 2024-02-20T10:19:19Z Simplifier finished after 0.149 seconds 2024-02-20T10:19:19Z Running AliasDependencyElimination 2024-02-20T10:19:20Z AliasDependencyElimination finished after 0.026 seconds 2024-02-20T10:19:20Z Running DelinearIndices 2024-02-20T10:19:20Z DelinearIndices finished after 0.099 seconds 2024-02-20T10:19:20Z Running Delinearization 2024-02-20T10:19:20Z Delinearization finished after 0.040 seconds 2024-02-20T10:19:20Z Running DelinearIndices 2024-02-20T10:19:20Z DelinearIndices finished after 0.100 seconds 2024-02-20T10:19:20Z Running DeadCodeElimination 2024-02-20T10:19:20Z DeadCodeElimination finished after 0.027 seconds 2024-02-20T10:19:20Z Running InferIntrinsicOnCC 2024-02-20T10:19:21Z InferIntrinsicOnCC finished after 0.310 seconds 2024-02-20T10:19:21Z Running ResolveAccessConflict 2024-02-20T10:19:21Z ResolveAccessConflict finished after 0.139 seconds 2024-02-20T10:19:21Z Running LICM 2024-02-20T10:19:21Z LICM finished after 0.044 seconds 2024-02-20T10:19:21Z Running LocalLayoutOpt 2024-02-20T10:19:22Z LocalLayoutOpt finished after 0.296 seconds 2024-02-20T10:19:22Z Running DelinearIndices 2024-02-20T10:19:22Z DelinearIndices finished after 0.109 seconds 2024-02-20T10:19:22Z Running OrigLayoutTilingPipeline 2024-02-20T10:19:22Z Running GlobalLayoutOpt 2024-02-20T10:19:25Z GlobalLayoutOpt finished after 2.828 seconds 2024-02-20T10:19:25Z Running CanonicalizeDAG 2024-02-20T10:19:25Z CanonicalizeDAG finished after 0.095 seconds 2024-02-20T10:19:25Z Running FlattenAxesForTiling 2024-02-20T10:19:25Z FlattenAxesForTiling finished after 0.016 seconds 2024-02-20T10:19:25Z Running SundaSizeTiling 2024-02-20T10:19:28Z SundaSizeTiling finished after 2.850 seconds 2024-02-20T10:19:28Z OrigLayoutTilingPipeline finished after 6.271 seconds 2024-02-20T10:19:28Z Running TilingProfiler 2024-02-20T10:19:28Z TilingProfiler finished after 0.165 seconds 2024-02-20T10:19:28Z Running FlattenMacroLoop 2024-02-20T10:19:29Z FlattenMacroLoop finished after 0.032 seconds 2024-02-20T10:19:29Z Running InferTongaTensor 2024-02-20T10:19:30Z InferTongaTensor finished after 0.866 seconds 2024-02-20T10:19:30Z Running TongaSimplifier 2024-02-20T10:19:30Z TongaSimplifier finished after 0.263 seconds 2024-02-20T10:19:30Z Running LICM 2024-02-20T10:19:30Z LICM finished after 0.068 seconds 2024-02-20T10:19:30Z Running RewriteReplicationMatmul 2024-02-20T10:19:30Z RewriteReplicationMatmul finished after 0.039 seconds 2024-02-20T10:19:30Z Running FlattenMacroLoop 2024-02-20T10:19:31Z FlattenMacroLoop finished after 0.038 seconds 2024-02-20T10:19:31Z Running SimplifyMacroPredicates 2024-02-20T10:19:31Z SimplifyMacroPredicates finished after 0.443 seconds 2024-02-20T10:19:31Z Running DataLocalityOpt 2024-02-20T10:23:14Z DataLocalityOpt finished after 222.933 seconds 2024-02-20T10:23:14Z Running TongaSimplifier 2024-02-20T10:23:15Z TongaSimplifier finished after 0.340 seconds 2024-02-20T10:23:15Z Running LegalizeSundaMacro 2024-02-20T10:23:15Z LegalizeSundaMacro finished after 0.224 seconds 2024-02-20T10:23:15Z Running TongaSimplifier 2024-02-20T10:23:15Z TongaSimplifier finished after 0.324 seconds 2024-02-20T10:23:15Z Running PerfectLoopNest 2024-02-20T10:23:15Z PerfectLoopNest finished after 0.058 seconds 2024-02-20T10:23:15Z Running FlattenMacroLoop 2024-02-20T10:23:15Z FlattenMacroLoop finished after 0.147 seconds 2024-02-20T10:23:15Z Running RewriteWeights 2024-02-20T10:25:29Z RewriteWeights finished after 133.356 seconds 2024-02-20T10:25:29Z Running ReshapeWeights 2024-02-20T10:25:29Z ReshapeWeights finished after 0.022 seconds 2024-02-20T10:25:29Z Running FlattenMacroLoop 2024-02-20T10:25:29Z FlattenMacroLoop finished after 0.058 seconds 2024-02-20T10:25:29Z Running SimplifyMacroPredicates 2024-02-20T10:25:30Z SimplifyMacroPredicates finished after 0.698 seconds 2024-02-20T10:25:30Z Running InferInitValue 2024-02-20T10:25:33Z InferInitValue finished after 3.602 seconds 2024-02-20T10:25:33Z Running TongaSimplifier 2024-02-20T10:25:33Z TongaSimplifier finished after 0.323 seconds 2024-02-20T10:25:33Z Running SimplifyTensor 2024-02-20T10:25:34Z SimplifyTensor finished after 0.294 seconds 2024-02-20T10:25:34Z Running LICM 2024-02-20T10:25:34Z LICM finished after 0.089 seconds 2024-02-20T10:25:34Z Running SundaISel 2024-02-20T10:25:35Z SundaISel finished after 1.468 seconds 2024-02-20T10:25:35Z Running LowerThorKernels 2024-02-20T10:25:35Z LowerThorKernels finished after 0.034 seconds 2024-02-20T10:25:35Z Running TongaLoopInterchange 2024-02-20T10:25:35Z TongaLoopInterchange finished after 0.052 seconds 2024-02-20T10:25:35Z Running TongaSimplifyPredicates 2024-02-20T10:25:35Z TongaSimplifyPredicates finished after 0.031 seconds 2024-02-20T10:25:35Z Running TongaLoopFusion 2024-02-20T10:25:36Z TongaLoopFusion finished after 0.550 seconds 2024-02-20T10:25:36Z Running TongaLoopInterchange 2024-02-20T10:25:36Z TongaLoopInterchange finished after 0.037 seconds 2024-02-20T10:25:36Z Running TongaLICM 2024-02-20T10:25:36Z TongaLICM finished after 0.123 seconds 2024-02-20T10:25:36Z Running FactorizeBlkDims 2024-02-20T10:25:37Z FactorizeBlkDims finished after 0.757 seconds 2024-02-20T10:25:37Z Running TongaInstComb 2024-02-20T10:25:38Z TongaInstComb finished after 1.084 seconds 2024-02-20T10:25:38Z Running TongaValueNumbering 2024-02-20T10:25:38Z TongaValueNumbering finished after 0.123 seconds 2024-02-20T10:25:38Z Running TongaInstComb 2024-02-20T10:25:38Z TongaInstComb finished after 0.277 seconds 2024-02-20T10:25:38Z Running VectorizeDMA 2024-02-20T10:25:39Z VectorizeDMA finished after 0.092 seconds 2024-02-20T10:25:39Z Running TongaSimplifyPredicates 2024-02-20T10:25:39Z TongaSimplifyPredicates finished after 0.030 seconds 2024-02-20T10:25:39Z Running LegalizePartitionReduce 2024-02-20T10:25:39Z LegalizePartitionReduce finished after 0.133 seconds 2024-02-20T10:25:39Z Running DeConcat 2024-02-20T10:25:39Z DeConcat finished after 0.034 seconds 2024-02-20T10:25:39Z Running PartialSimdFusion 2024-02-20T10:25:39Z PartialSimdFusion finished after 0.412 seconds 2024-02-20T10:25:39Z Running TritiumFusion 2024-02-20T10:25:43Z TritiumFusion finished after 4.124 seconds 2024-02-20T10:25:43Z Running CCOpFusion 2024-02-20T10:25:44Z CCOpFusion finished after 0.559 seconds 2024-02-20T10:25:44Z Running VectorizeMatMult 2024-02-20T10:25:44Z VectorizeMatMult finished after 0.384 seconds 2024-02-20T10:25:44Z Running PartialLoopFusion 2024-02-20T10:25:45Z PartialLoopFusion finished after 0.436 seconds 2024-02-20T10:25:45Z Running TongaLICM 2024-02-20T10:25:45Z TongaLICM finished after 0.125 seconds 2024-02-20T10:25:45Z Running LowerTranspose 2024-02-20T10:25:45Z LowerTranspose finished after 0.205 seconds 2024-02-20T10:25:45Z Running LateTongaInstComb 2024-02-20T10:25:46Z LateTongaInstComb finished after 0.924 seconds 2024-02-20T10:25:46Z Running SplitAccGrp 2024-02-20T10:25:46Z SplitAccGrp finished after 0.034 seconds 2024-02-20T10:25:46Z Running SpillPSum 2024-02-20T10:25:47Z SpillPSum finished after 0.553 seconds 2024-02-20T10:25:47Z Running LowerIntrinsics 2024-02-20T10:25:47Z LowerIntrinsics finished after 0.080 seconds 2024-02-20T10:25:47Z Running LegalizeType 2024-02-20T10:25:47Z LegalizeType finished after 0.053 seconds 2024-02-20T10:25:47Z Running TongaLICM 2024-02-20T10:25:47Z TongaLICM finished after 0.140 seconds 2024-02-20T10:25:47Z Running InferPSumTensor 2024-02-20T10:25:48Z InferPSumTensor finished after 0.746 seconds 2024-02-20T10:25:48Z Running WeightCoalescing 2024-02-20T10:25:48Z WeightCoalescing finished after 0.038 seconds 2024-02-20T10:25:48Z Running LegalizeSundaAccess 2024-02-20T10:25:49Z LegalizeSundaAccess finished after 1.584 seconds 2024-02-20T10:25:49Z Running RelaxPredicates 2024-02-20T10:25:49Z RelaxPredicates finished after 0.050 seconds 2024-02-20T10:25:49Z Running TensorInitialization 2024-02-20T10:25:49Z TensorInitialization finished after 0.117 seconds 2024-02-20T10:25:49Z Running TongaSimplifyPredicates 2024-02-20T10:25:50Z TongaSimplifyPredicates finished after 0.139 seconds 2024-02-20T10:25:50Z Running ExpandISAMacro 2024-02-20T10:25:50Z ExpandISAMacro finished after 0.061 seconds 2024-02-20T10:25:50Z Running SimplifyTongaTensor 2024-02-20T10:25:50Z SimplifyTongaTensor finished after 0.144 seconds 2024-02-20T10:25:50Z Running DMALocalityOpt 2024-02-20T10:25:50Z DMALocalityOpt finished after 0.017 seconds 2024-02-20T10:25:50Z Running DataStreaming 2024-02-20T10:25:50Z DataStreaming finished after 0.105 seconds 2024-02-20T10:25:50Z Running SFKVectorizer 2024-02-20T10:25:54Z SFKVectorizer finished after 4.004 seconds 2024-02-20T10:25:54Z Running LateLegalizeInst 2024-02-20T10:25:54Z LateLegalizeInst finished after 0.040 seconds 2024-02-20T10:25:54Z Running CoalesceCCOp 2024-02-20T10:25:54Z CoalesceCCOp finished after 0.040 seconds 2024-02-20T10:25:54Z Running SimpleAllReduceTiling 2024-02-20T10:25:54Z SimpleAllReduceTiling finished after 0.039 seconds 2024-02-20T10:25:54Z Running StaticProfiler 2024-02-20T10:25:54Z StaticProfiler finished after 0.110 seconds 2024-02-20T10:25:54Z Running SplitAPUnionSets 2024-02-20T10:25:54Z SplitAPUnionSets finished after 0.172 seconds 2024-02-20T10:25:54Z Running DumpGraphAndMetadata 2024-02-20T10:25:54Z DumpGraphAndMetadata finished after 0.095 seconds 2024-02-20T10:25:54Z Running BirCodeGenLoop 2024-02-20T10:25:56Z BirCodeGenLoop finished after 1.534 seconds 2024-02-20T10:29:08Z Running birverifier 2024-02-20T10:29:09Z birverifier finished after 1.212 seconds 2024-02-20T10:29:09Z Running expand_replication 2024-02-20T10:29:09Z expand_replication finished after 0.003 seconds 2024-02-20T10:29:09Z Running unroll 2024-02-20T10:29:14Z unroll finished after 4.933 seconds 2024-02-20T10:29:14Z Running psum_legalization 2024-02-20T10:29:14Z psum_legalization finished after 0.070 seconds 2024-02-20T10:29:14Z Running pre_opts 2024-02-20T10:29:14Z pre_opts finished after 0.010 seconds 2024-02-20T10:29:14Z Running error_injector 2024-02-20T10:29:14Z error_injector finished after 0.009 seconds 2024-02-20T10:29:14Z Running constant_propagate 2024-02-20T10:29:15Z constant_propagate finished after 0.644 seconds 2024-02-20T10:29:15Z Running vn_splitter 2024-02-20T10:29:15Z vn_splitter finished after 0.385 seconds 2024-02-20T10:29:15Z Running lower_ac 2024-02-20T10:29:16Z lower_ac finished after 0.079 seconds 2024-02-20T10:29:16Z Running input_dma_coalescing 2024-02-20T10:29:16Z input_dma_coalescing finished after 0.202 seconds 2024-02-20T10:29:16Z Running pre_sched 2024-02-20T10:29:19Z pre_sched finished after 3.666 seconds 2024-02-20T10:29:19Z Running mm_packing 2024-02-20T10:29:22Z mm_packing finished after 2.592 seconds 2024-02-20T10:29:22Z Running coloring_allocator_psum 2024-02-20T10:29:28Z coloring_allocator_psum finished after 5.539 seconds 2024-02-20T10:29:28Z Running dma_optimization_psum 2024-02-20T10:29:28Z dma_optimization_psum finished after 0.355 seconds 2024-02-20T10:29:28Z Running address_rotation_psum 2024-02-20T10:29:29Z address_rotation_psum finished after 1.245 seconds 2024-02-20T10:29:29Z Running coloring_allocator_sb 2024-02-20T10:29:52Z coloring_allocator_sb finished after 23.253 seconds 2024-02-20T10:29:52Z Running address_rotation_sb 2024-02-20T10:29:57Z address_rotation_sb finished after 4.872 seconds 2024-02-20T10:29:57Z Running dma_optimization_sb 2024-02-20T10:30:08Z dma_optimization_sb finished after 10.441 seconds 2024-02-20T10:30:08Z Running address_rotation_sb 2024-02-20T10:30:12Z address_rotation_sb finished after 4.174 seconds 2024-02-20T10:30:12Z Running coloring_allocator_dram 2024-02-20T10:30:13Z coloring_allocator_dram finished after 1.147 seconds 2024-02-20T10:30:13Z Running address_rotation_dram 2024-02-20T10:30:14Z address_rotation_dram finished after 0.572 seconds 2024-02-20T10:30:14Z Running tensorcopy_accel 2024-02-20T10:30:14Z tensorcopy_accel finished after 0.049 seconds 2024-02-20T10:30:14Z Running peephole_opts 2024-02-20T10:30:14Z peephole_opts finished after 0.114 seconds 2024-02-20T10:30:14Z Running lower_kernel 2024-02-20T10:30:14Z lower_kernel finished after 0.074 seconds 2024-02-20T10:30:14Z Running build_fdeps 2024-02-20T10:30:15Z build_fdeps finished after 1.327 seconds 2024-02-20T10:30:15Z Running remove_redundancies 2024-02-20T10:30:16Z remove_redundancies finished after 0.312 seconds 2024-02-20T10:30:16Z Running anti_dependency_analyzer 2024-02-20T10:30:19Z anti_dependency_analyzer finished after 3.393 seconds 2024-02-20T10:30:19Z Running tensor_copy_elim 2024-02-20T10:30:19Z tensor_copy_elim finished after 0.210 seconds 2024-02-20T10:30:19Z Running post_sched 2024-02-20T10:30:47Z post_sched finished after 27.709 seconds 2024-02-20T10:30:47Z Running address_rotation_sb 2024-02-20T10:30:58Z address_rotation_sb finished after 10.601 seconds 2024-02-20T10:30:58Z Running anti_dependency_analyzer 2024-02-20T10:31:01Z anti_dependency_analyzer finished after 3.768 seconds 2024-02-20T10:31:01Z Running dep_opt 2024-02-20T10:31:04Z dep_opt finished after 2.301 seconds 2024-02-20T10:31:04Z Running report_stats 2024-02-20T10:31:04Z report_stats finished after 0.250 seconds 2024-02-20T10:31:04Z Running assign_trigger_engine 2024-02-20T10:31:04Z assign_trigger_engine finished after 0.234 seconds 2024-02-20T10:31:04Z Running alloc_queues 2024-02-20T10:31:04Z alloc_queues finished after 0.135 seconds 2024-02-20T10:31:04Z Running dep_reduction 2024-02-20T10:31:10Z dep_reduction finished after 6.031 seconds 2024-02-20T10:31:11Z Running bir_racecheck 2024-02-20T10:31:17Z bir_racecheck finished after 6.826 seconds 2024-02-20T10:31:17Z Running lower_dma 2024-02-20T10:31:19Z lower_dma finished after 1.294 seconds 2024-02-20T10:31:19Z Running coalesce_dma_blocks 2024-02-20T10:31:19Z coalesce_dma_blocks finished after 0.415 seconds 2024-02-20T10:31:19Z Running alloc_semaphores 2024-02-20T10:31:20Z alloc_semaphores finished after 0.602 seconds 2024-02-20T10:31:20Z Running expand_inst_late 2024-02-20T10:31:20Z expand_inst_late finished after 0.088 seconds 2024-02-20T10:31:20Z Running lower_sync 2024-02-20T10:31:20Z lower_sync finished after 0.353 seconds 2024-02-20T10:31:20Z Running lower_act 2024-02-20T10:31:20Z lower_act finished after 0.105 seconds 2024-02-20T10:31:20Z Running lower_dve 2024-02-20T10:31:21Z lower_dve finished after 0.714 seconds 2024-02-20T10:31:21Z Running lower_ap 2024-02-20T10:31:21Z lower_ap finished after 0.157 seconds 2024-02-20T10:31:21Z Running alloc_regs 2024-02-20T10:31:21Z alloc_regs finished after 0.019 seconds 2024-02-20T10:31:21Z Running birverifier 2024-02-20T10:31:23Z birverifier finished after 1.323 seconds 2024-02-20T10:31:23Z Running codegen 2024-02-20T10:31:27Z isa_gen finished after 4.879 seconds 2024-02-20T10:31:29Z dma_desc_gen finished after 1.095 seconds 2024-02-20T10:31:30Z debug_info_gen finished after 1.731 seconds 2024-02-20T10:31:31Z codegen finished after 8.201 seconds 2024-02-20T10:31:31Z Running neff_packager 2024-02-20T10:43:31Z neff_packager finished after 720.613 seconds 2024-02-20T10:43:43Z Compiler status PASS [Compilation Time] 2098.21 seconds. ***** Compiling decoder ***** /home/ubuntu/pyvenv/aws_neuron_venv_2.17/lib/python3.8/site-packages/torch_neuronx/xla_impl/hlo_conversion.py:143: UserWarning: Received an input tensor that was unused. Tensor will be ignored. (index=2, shape=torch.Size([4, 128, 4096]), dtype=torch.float32) warnings.warn( 2024-02-20T10:54:27Z Compilation is optimized for best performance and compilation time. For faster compilation time please use -O1 2024-02-20T10:54:45Z Running DoNothing 2024-02-20T10:54:46Z DoNothing finished after 0.000 seconds 2024-02-20T10:54:46Z Running AliasDependencyInduction 2024-02-20T10:54:46Z AliasDependencyInduction finished after 0.011 seconds 2024-02-20T10:54:46Z Running CanonicalizeIR 2024-02-20T10:54:46Z CanonicalizeIR finished after 0.036 seconds 2024-02-20T10:54:46Z Running LegalizeCCOpLayout 2024-02-20T10:54:46Z LegalizeCCOpLayout finished after 0.039 seconds 2024-02-20T10:54:46Z Running ExpandBatchNorm 2024-02-20T10:54:46Z ExpandBatchNorm finished after 0.042 seconds 2024-02-20T10:54:46Z Running ResolveComplicatePredicates 2024-02-20T10:54:46Z ResolveComplicatePredicates finished after 0.035 seconds 2024-02-20T10:54:46Z Running AffinePredicateResolution 2024-02-20T10:54:47Z AffinePredicateResolution finished after 0.037 seconds 2024-02-20T10:54:47Z Running EliminateDivs 2024-02-20T10:54:47Z EliminateDivs finished after 0.036 seconds 2024-02-20T10:54:47Z Running PerfectLoopNest 2024-02-20T10:54:47Z PerfectLoopNest finished after 0.036 seconds 2024-02-20T10:54:47Z Running Simplifier 2024-02-20T10:54:47Z Simplifier finished after 0.189 seconds 2024-02-20T10:54:47Z Running GenericAccessSimplifier 2024-02-20T10:54:47Z GenericAccessSimplifier finished after 0.037 seconds 2024-02-20T10:54:47Z Running TCTransform 2024-02-20T10:54:48Z TCTransform finished after 0.086 seconds 2024-02-20T10:54:48Z Running CommuteConcat 2024-02-20T10:54:48Z CommuteConcat finished after 0.036 seconds 2024-02-20T10:54:48Z Running LowerTensorOp 2024-02-20T10:54:50Z LowerTensorOp finished after 2.175 seconds 2024-02-20T10:54:50Z Running TCTransform 2024-02-20T10:54:50Z TCTransform finished after 0.109 seconds 2024-02-20T10:54:50Z Running CanonicalizeIR 2024-02-20T10:54:51Z CanonicalizeIR finished after 0.098 seconds 2024-02-20T10:54:51Z Running TensorOpFusion 2024-02-20T10:54:51Z TensorOpFusion finished after 0.121 seconds 2024-02-20T10:54:51Z Running TensorOpTransform 2024-02-20T10:54:52Z TensorOpTransform finished after 1.427 seconds 2024-02-20T10:54:52Z Running LateLowerTensorOp 2024-02-20T10:54:53Z LateLowerTensorOp finished after 0.390 seconds 2024-02-20T10:54:53Z Running MemcpyElimination 2024-02-20T10:55:01Z MemcpyElimination finished after 8.332 seconds 2024-02-20T10:55:01Z Running LoopFusion 2024-02-20T10:55:06Z LoopFusion finished after 4.678 seconds 2024-02-20T10:55:06Z Running Simplifier 2024-02-20T10:55:07Z Simplifier finished after 0.449 seconds 2024-02-20T10:55:07Z Running Delinearization 2024-02-20T10:55:07Z Delinearization finished after 0.183 seconds 2024-02-20T10:55:07Z Running AliasDependencyElimination 2024-02-20T10:55:07Z AliasDependencyElimination finished after 0.048 seconds 2024-02-20T10:55:07Z Running DeadStoreElimination 2024-02-20T10:55:13Z DeadStoreElimination finished after 5.989 seconds 2024-02-20T10:55:13Z Running AliasDependencyInduction 2024-02-20T10:55:14Z AliasDependencyInduction finished after 0.013 seconds 2024-02-20T10:55:14Z Running Simplifier 2024-02-20T10:55:14Z Simplifier finished after 0.222 seconds 2024-02-20T10:55:14Z Running LICM 2024-02-20T10:55:14Z LICM finished after 0.112 seconds 2024-02-20T10:55:14Z Running Delinearization 2024-02-20T10:55:15Z Delinearization finished after 0.092 seconds 2024-02-20T10:55:15Z Running LoopFusion 2024-02-20T10:55:15Z LoopFusion finished after 0.426 seconds 2024-02-20T10:55:15Z Running SimplifySlice 2024-02-20T10:55:15Z SimplifySlice finished after 0.044 seconds 2024-02-20T10:55:15Z Running LICM 2024-02-20T10:55:15Z LICM finished after 0.072 seconds 2024-02-20T10:55:15Z Running Simplifier 2024-02-20T10:55:16Z Simplifier finished after 0.215 seconds 2024-02-20T10:55:16Z Running ValueNumbering 2024-02-20T10:55:16Z ValueNumbering finished after 0.210 seconds 2024-02-20T10:55:16Z Running LICM 2024-02-20T10:55:16Z LICM finished after 0.075 seconds 2024-02-20T10:55:16Z Running PadElimination 2024-02-20T10:55:17Z PadElimination finished after 0.005 seconds 2024-02-20T10:55:17Z Running Delinearization 2024-02-20T10:55:17Z Delinearization finished after 0.091 seconds 2024-02-20T10:55:17Z Running LoopFusion 2024-02-20T10:55:17Z LoopFusion finished after 0.415 seconds 2024-02-20T10:55:17Z Running GenericAccessSimplifier 2024-02-20T10:55:18Z GenericAccessSimplifier finished after 0.044 seconds 2024-02-20T10:55:18Z Running Simplifier 2024-02-20T10:55:18Z Simplifier finished after 0.217 seconds 2024-02-20T10:55:18Z Running LICM 2024-02-20T10:55:18Z LICM finished after 0.072 seconds 2024-02-20T10:55:18Z Running ValueNumbering 2024-02-20T10:55:18Z ValueNumbering finished after 0.094 seconds 2024-02-20T10:55:18Z Running TCTransform 2024-02-20T10:55:18Z TCTransform finished after 0.051 seconds 2024-02-20T10:55:18Z Running CommuteConcat 2024-02-20T10:55:18Z CommuteConcat finished after 0.045 seconds 2024-02-20T10:55:18Z Running RecognizeOpIdiom 2024-02-20T10:55:19Z RecognizeOpIdiom finished after 0.490 seconds 2024-02-20T10:55:19Z Running MaskPropagation 2024-02-20T10:55:19Z MaskPropagation finished after 0.100 seconds 2024-02-20T10:55:19Z Running Recompute 2024-02-20T10:55:19Z Recompute finished after 0.005 seconds 2024-02-20T10:55:19Z Running DeadCodeElimination 2024-02-20T10:55:19Z DeadCodeElimination finished after 0.046 seconds 2024-02-20T10:55:19Z Running DoNothing 2024-02-20T10:55:19Z DoNothing finished after 0.000 seconds 2024-02-20T10:55:19Z Running MutateDataType 2024-02-20T10:55:19Z MutateDataType finished after 0.039 seconds 2024-02-20T10:55:19Z Running AutoCastTCInputs 2024-02-20T10:55:19Z AutoCastTCInputs finished after 0.146 seconds 2024-02-20T10:55:19Z Running GenericAccessSimplifier 2024-02-20T10:55:19Z GenericAccessSimplifier finished after 0.044 seconds 2024-02-20T10:55:19Z Running Simplifier 2024-02-20T10:55:19Z Simplifier finished after 0.213 seconds 2024-02-20T10:55:19Z Running AliasDependencyElimination 2024-02-20T10:55:19Z AliasDependencyElimination finished after 0.047 seconds 2024-02-20T10:55:19Z Running DelinearIndices 2024-02-20T10:55:20Z DelinearIndices finished after 0.275 seconds 2024-02-20T10:55:20Z Running Delinearization 2024-02-20T10:55:20Z Delinearization finished after 0.086 seconds 2024-02-20T10:55:20Z Running DelinearIndices 2024-02-20T10:55:20Z DelinearIndices finished after 0.199 seconds 2024-02-20T10:55:20Z Running DeadCodeElimination 2024-02-20T10:55:20Z DeadCodeElimination finished after 0.047 seconds 2024-02-20T10:55:20Z Running InferIntrinsicOnCC 2024-02-20T10:55:21Z InferIntrinsicOnCC finished after 0.530 seconds 2024-02-20T10:55:21Z Running ResolveAccessConflict 2024-02-20T10:55:21Z ResolveAccessConflict finished after 0.253 seconds 2024-02-20T10:55:21Z Running LICM 2024-02-20T10:55:21Z LICM finished after 0.085 seconds 2024-02-20T10:55:21Z Running LocalLayoutOpt 2024-02-20T10:55:21Z LocalLayoutOpt finished after 0.541 seconds 2024-02-20T10:55:21Z Running DelinearIndices 2024-02-20T10:55:22Z DelinearIndices finished after 0.220 seconds 2024-02-20T10:55:22Z Running OrigLayoutTilingPipeline 2024-02-20T10:55:22Z Running GlobalLayoutOpt 2024-02-20T10:55:33Z GlobalLayoutOpt finished after 11.282 seconds 2024-02-20T10:55:33Z Running CanonicalizeDAG 2024-02-20T10:55:33Z CanonicalizeDAG finished after 0.268 seconds 2024-02-20T10:55:33Z Running FlattenAxesForTiling 2024-02-20T10:55:34Z FlattenAxesForTiling finished after 0.258 seconds 2024-02-20T10:55:34Z Running SundaSizeTiling 2024-02-20T10:55:39Z SundaSizeTiling finished after 5.370 seconds 2024-02-20T10:55:40Z OrigLayoutTilingPipeline finished after 17.721 seconds 2024-02-20T10:55:40Z Running TilingProfiler 2024-02-20T10:55:40Z TilingProfiler finished after 0.374 seconds 2024-02-20T10:55:40Z Running FlattenMacroLoop 2024-02-20T10:55:40Z FlattenMacroLoop finished after 0.180 seconds 2024-02-20T10:55:40Z Running InferTongaTensor 2024-02-20T10:55:43Z InferTongaTensor finished after 2.024 seconds 2024-02-20T10:55:43Z Running TongaSimplifier 2024-02-20T10:55:43Z TongaSimplifier finished after 0.413 seconds 2024-02-20T10:55:43Z Running LICM 2024-02-20T10:55:43Z LICM finished after 0.142 seconds 2024-02-20T10:55:43Z Running RewriteReplicationMatmul 2024-02-20T10:55:44Z RewriteReplicationMatmul finished after 0.090 seconds 2024-02-20T10:55:44Z Running FlattenMacroLoop 2024-02-20T10:55:44Z FlattenMacroLoop finished after 0.184 seconds 2024-02-20T10:55:44Z Running SimplifyMacroPredicates 2024-02-20T10:55:45Z SimplifyMacroPredicates finished after 1.355 seconds 2024-02-20T10:55:45Z Running DataLocalityOpt 2024-02-20T10:59:36Z DataLocalityOpt finished after 230.430 seconds 2024-02-20T10:59:36Z Running TongaSimplifier 2024-02-20T10:59:36Z TongaSimplifier finished after 0.532 seconds 2024-02-20T10:59:36Z Running LegalizeSundaMacro 2024-02-20T10:59:37Z LegalizeSundaMacro finished after 0.468 seconds 2024-02-20T10:59:37Z Running TongaSimplifier 2024-02-20T10:59:37Z TongaSimplifier finished after 0.524 seconds 2024-02-20T10:59:37Z Running PerfectLoopNest 2024-02-20T10:59:38Z PerfectLoopNest finished after 0.109 seconds 2024-02-20T10:59:38Z Running FlattenMacroLoop 2024-02-20T10:59:38Z FlattenMacroLoop finished after 0.268 seconds 2024-02-20T10:59:38Z Running RewriteWeights 2024-02-20T11:01:56Z RewriteWeights finished after 137.843 seconds 2024-02-20T11:01:56Z Running ReshapeWeights 2024-02-20T11:01:56Z ReshapeWeights finished after 0.038 seconds 2024-02-20T11:01:56Z Running FlattenMacroLoop 2024-02-20T11:01:56Z FlattenMacroLoop finished after 0.120 seconds 2024-02-20T11:01:56Z Running SimplifyMacroPredicates 2024-02-20T11:01:58Z SimplifyMacroPredicates finished after 1.749 seconds 2024-02-20T11:01:58Z Running InferInitValue 2024-02-20T11:02:04Z InferInitValue finished after 6.643 seconds 2024-02-20T11:02:04Z Running TongaSimplifier 2024-02-20T11:02:05Z TongaSimplifier finished after 0.520 seconds 2024-02-20T11:02:05Z Running SimplifyTensor 2024-02-20T11:02:06Z SimplifyTensor finished after 0.881 seconds 2024-02-20T11:02:06Z Running LICM 2024-02-20T11:02:06Z LICM finished after 0.169 seconds 2024-02-20T11:02:06Z Running SundaISel 2024-02-20T11:02:10Z SundaISel finished after 4.043 seconds 2024-02-20T11:02:10Z Running LowerThorKernels 2024-02-20T11:02:10Z LowerThorKernels finished after 0.070 seconds 2024-02-20T11:02:10Z Running TongaLoopInterchange 2024-02-20T11:02:10Z TongaLoopInterchange finished after 0.149 seconds 2024-02-20T11:02:10Z Running TongaSimplifyPredicates 2024-02-20T11:02:10Z TongaSimplifyPredicates finished after 0.225 seconds 2024-02-20T11:02:10Z Running TongaLoopFusion 2024-02-20T11:02:12Z TongaLoopFusion finished after 1.139 seconds 2024-02-20T11:02:12Z Running TongaLoopInterchange 2024-02-20T11:02:12Z TongaLoopInterchange finished after 0.097 seconds 2024-02-20T11:02:12Z Running TongaLICM 2024-02-20T11:02:12Z TongaLICM finished after 0.451 seconds 2024-02-20T11:02:12Z Running FactorizeBlkDims 2024-02-20T11:02:14Z FactorizeBlkDims finished after 1.559 seconds 2024-02-20T11:02:14Z Running TongaInstComb 2024-02-20T11:02:19Z TongaInstComb finished after 4.903 seconds 2024-02-20T11:02:19Z Running TongaValueNumbering 2024-02-20T11:02:19Z TongaValueNumbering finished after 0.279 seconds 2024-02-20T11:02:19Z Running TongaInstComb 2024-02-20T11:02:20Z TongaInstComb finished after 1.138 seconds 2024-02-20T11:02:20Z Running VectorizeDMA 2024-02-20T11:02:20Z VectorizeDMA finished after 0.284 seconds 2024-02-20T11:02:20Z Running TongaSimplifyPredicates 2024-02-20T11:02:21Z TongaSimplifyPredicates finished after 0.234 seconds 2024-02-20T11:02:21Z Running LegalizePartitionReduce 2024-02-20T11:02:21Z LegalizePartitionReduce finished after 0.252 seconds 2024-02-20T11:02:21Z Running DeConcat 2024-02-20T11:02:21Z DeConcat finished after 0.061 seconds 2024-02-20T11:02:21Z Running PartialSimdFusion 2024-02-20T11:02:22Z PartialSimdFusion finished after 1.032 seconds 2024-02-20T11:02:22Z Running TritiumFusion 2024-02-20T11:02:27Z TritiumFusion finished after 4.936 seconds 2024-02-20T11:02:27Z Running CCOpFusion 2024-02-20T11:02:28Z CCOpFusion finished after 1.147 seconds 2024-02-20T11:02:28Z Running VectorizeMatMult 2024-02-20T11:02:28Z VectorizeMatMult finished after 0.395 seconds 2024-02-20T11:02:28Z Running PartialLoopFusion 2024-02-20T11:02:29Z PartialLoopFusion finished after 1.066 seconds 2024-02-20T11:02:29Z Running TongaLICM 2024-02-20T11:02:30Z TongaLICM finished after 0.308 seconds 2024-02-20T11:02:30Z Running LowerTranspose 2024-02-20T11:02:31Z LowerTranspose finished after 0.910 seconds 2024-02-20T11:02:31Z Running LateTongaInstComb 2024-02-20T11:02:33Z LateTongaInstComb finished after 2.700 seconds 2024-02-20T11:02:33Z Running SplitAccGrp 2024-02-20T11:02:33Z SplitAccGrp finished after 0.073 seconds 2024-02-20T11:02:33Z Running SpillPSum 2024-02-20T11:02:35Z SpillPSum finished after 1.212 seconds 2024-02-20T11:02:35Z Running LowerIntrinsics 2024-02-20T11:02:35Z LowerIntrinsics finished after 0.090 seconds 2024-02-20T11:02:35Z Running LegalizeType 2024-02-20T11:02:35Z LegalizeType finished after 0.161 seconds 2024-02-20T11:02:35Z Running TongaLICM 2024-02-20T11:02:35Z TongaLICM finished after 0.337 seconds 2024-02-20T11:02:35Z Running InferPSumTensor 2024-02-20T11:02:37Z InferPSumTensor finished after 1.824 seconds 2024-02-20T11:02:37Z Running WeightCoalescing 2024-02-20T11:02:37Z WeightCoalescing finished after 0.078 seconds 2024-02-20T11:02:37Z Running LegalizeSundaAccess 2024-02-20T11:02:38Z LegalizeSundaAccess finished after 0.486 seconds 2024-02-20T11:02:38Z Running RelaxPredicates 2024-02-20T11:02:38Z RelaxPredicates finished after 0.137 seconds 2024-02-20T11:02:38Z Running TensorInitialization 2024-02-20T11:02:39Z TensorInitialization finished after 1.522 seconds 2024-02-20T11:02:39Z Running TongaSimplifyPredicates 2024-02-20T11:02:40Z TongaSimplifyPredicates finished after 0.606 seconds 2024-02-20T11:02:40Z Running ExpandISAMacro 2024-02-20T11:02:40Z ExpandISAMacro finished after 0.120 seconds 2024-02-20T11:02:40Z Running SimplifyTongaTensor 2024-02-20T11:02:41Z SimplifyTongaTensor finished after 1.268 seconds 2024-02-20T11:02:41Z Running DMALocalityOpt 2024-02-20T11:02:41Z DMALocalityOpt finished after 0.069 seconds 2024-02-20T11:02:41Z Running DataStreaming 2024-02-20T11:02:42Z DataStreaming finished after 0.243 seconds 2024-02-20T11:02:42Z Running SFKVectorizer 2024-02-20T11:02:55Z SFKVectorizer finished after 13.387 seconds 2024-02-20T11:02:55Z Running LateLegalizeInst 2024-02-20T11:02:56Z LateLegalizeInst finished after 0.422 seconds 2024-02-20T11:02:56Z Running CoalesceCCOp 2024-02-20T11:02:56Z CoalesceCCOp finished after 0.096 seconds 2024-02-20T11:02:56Z Running SimpleAllReduceTiling 2024-02-20T11:02:56Z SimpleAllReduceTiling finished after 0.091 seconds 2024-02-20T11:02:56Z Running StaticProfiler 2024-02-20T11:02:56Z StaticProfiler finished after 0.570 seconds 2024-02-20T11:02:56Z Running SplitAPUnionSets 2024-02-20T11:02:57Z SplitAPUnionSets finished after 1.005 seconds 2024-02-20T11:02:57Z Running DumpGraphAndMetadata 2024-02-20T11:02:58Z DumpGraphAndMetadata finished after 0.232 seconds 2024-02-20T11:02:58Z Running BirCodeGenLoop 2024-02-20T11:03:00Z BirCodeGenLoop finished after 2.870 seconds 2024-02-20T11:06:23Z Running birverifier 2024-02-20T11:06:24Z birverifier finished after 1.421 seconds 2024-02-20T11:06:24Z Running expand_replication 2024-02-20T11:06:24Z expand_replication finished after 0.004 seconds 2024-02-20T11:06:24Z Running unroll 2024-02-20T11:06:30Z unroll finished after 5.523 seconds 2024-02-20T11:06:30Z Running psum_legalization 2024-02-20T11:06:30Z psum_legalization finished after 0.085 seconds 2024-02-20T11:06:30Z Running pre_opts 2024-02-20T11:06:30Z pre_opts finished after 0.013 seconds 2024-02-20T11:06:30Z Running error_injector 2024-02-20T11:06:30Z error_injector finished after 0.013 seconds 2024-02-20T11:06:30Z Running constant_propagate 2024-02-20T11:06:31Z constant_propagate finished after 0.735 seconds 2024-02-20T11:06:31Z Running vn_splitter 2024-02-20T11:06:31Z vn_splitter finished after 0.504 seconds 2024-02-20T11:06:31Z Running lower_ac 2024-02-20T11:06:31Z lower_ac finished after 0.091 seconds 2024-02-20T11:06:31Z Running input_dma_coalescing 2024-02-20T11:06:32Z input_dma_coalescing finished after 0.249 seconds 2024-02-20T11:06:32Z Running pre_sched 2024-02-20T11:06:36Z pre_sched finished after 4.110 seconds 2024-02-20T11:06:36Z Running mm_packing 2024-02-20T11:06:39Z mm_packing finished after 3.396 seconds 2024-02-20T11:06:39Z Running coloring_allocator_psum 2024-02-20T11:06:45Z coloring_allocator_psum finished after 5.638 seconds 2024-02-20T11:06:45Z Running dma_optimization_psum 2024-02-20T11:06:45Z dma_optimization_psum finished after 0.435 seconds 2024-02-20T11:06:45Z Running address_rotation_psum 2024-02-20T11:06:47Z address_rotation_psum finished after 1.577 seconds 2024-02-20T11:06:47Z Running coloring_allocator_sb 2024-02-20T11:07:13Z coloring_allocator_sb finished after 26.282 seconds 2024-02-20T11:07:13Z Running address_rotation_sb 2024-02-20T11:07:26Z address_rotation_sb finished after 13.183 seconds 2024-02-20T11:07:26Z Running dma_optimization_sb 2024-02-20T11:07:34Z dma_optimization_sb finished after 7.926 seconds 2024-02-20T11:07:34Z Running address_rotation_sb 2024-02-20T11:07:46Z address_rotation_sb finished after 11.245 seconds 2024-02-20T11:07:46Z Running coloring_allocator_dram 2024-02-20T11:07:47Z coloring_allocator_dram finished after 1.074 seconds 2024-02-20T11:07:47Z Running address_rotation_dram 2024-02-20T11:07:48Z address_rotation_dram finished after 1.026 seconds 2024-02-20T11:07:48Z Running tensorcopy_accel 2024-02-20T11:07:48Z tensorcopy_accel finished after 0.054 seconds 2024-02-20T11:07:48Z Running peephole_opts 2024-02-20T11:07:48Z peephole_opts finished after 0.155 seconds 2024-02-20T11:07:48Z Running lower_kernel 2024-02-20T11:07:48Z lower_kernel finished after 0.056 seconds 2024-02-20T11:07:48Z Running build_fdeps 2024-02-20T11:07:49Z build_fdeps finished after 1.269 seconds 2024-02-20T11:07:49Z Running remove_redundancies 2024-02-20T11:07:50Z remove_redundancies finished after 0.228 seconds 2024-02-20T11:07:50Z Running anti_dependency_analyzer 2024-02-20T11:07:54Z anti_dependency_analyzer finished after 4.828 seconds 2024-02-20T11:07:54Z Running tensor_copy_elim 2024-02-20T11:07:55Z tensor_copy_elim finished after 0.689 seconds 2024-02-20T11:07:55Z Running post_sched 2024-02-20T11:08:25Z post_sched finished after 29.645 seconds 2024-02-20T11:08:25Z Running address_rotation_sb 2024-02-20T11:08:39Z address_rotation_sb finished after 14.163 seconds 2024-02-20T11:08:39Z Running anti_dependency_analyzer 2024-02-20T11:08:44Z anti_dependency_analyzer finished after 5.031 seconds 2024-02-20T11:08:44Z Running dep_opt 2024-02-20T11:08:47Z dep_opt finished after 2.468 seconds 2024-02-20T11:08:47Z Running report_stats 2024-02-20T11:08:47Z report_stats finished after 0.233 seconds 2024-02-20T11:08:47Z Running assign_trigger_engine 2024-02-20T11:08:47Z assign_trigger_engine finished after 0.253 seconds 2024-02-20T11:08:47Z Running alloc_queues 2024-02-20T11:08:47Z alloc_queues finished after 0.143 seconds 2024-02-20T11:08:47Z Running dep_reduction 2024-02-20T11:08:54Z dep_reduction finished after 6.838 seconds 2024-02-20T11:08:54Z Running bir_racecheck 2024-02-20T11:09:04Z bir_racecheck finished after 9.751 seconds 2024-02-20T11:09:04Z Running lower_dma 2024-02-20T11:09:05Z lower_dma finished after 1.498 seconds 2024-02-20T11:09:05Z Running coalesce_dma_blocks 2024-02-20T11:09:06Z coalesce_dma_blocks finished after 0.481 seconds 2024-02-20T11:09:06Z Running alloc_semaphores 2024-02-20T11:09:07Z alloc_semaphores finished after 0.669 seconds 2024-02-20T11:09:07Z Running expand_inst_late 2024-02-20T11:09:07Z expand_inst_late finished after 0.096 seconds 2024-02-20T11:09:07Z Running lower_sync 2024-02-20T11:09:07Z lower_sync finished after 0.435 seconds 2024-02-20T11:09:07Z Running lower_act 2024-02-20T11:09:07Z lower_act finished after 0.121 seconds 2024-02-20T11:09:07Z Running lower_dve 2024-02-20T11:09:08Z lower_dve finished after 0.791 seconds 2024-02-20T11:09:08Z Running lower_ap 2024-02-20T11:09:08Z lower_ap finished after 0.178 seconds 2024-02-20T11:09:08Z Running alloc_regs 2024-02-20T11:09:08Z alloc_regs finished after 0.022 seconds 2024-02-20T11:09:08Z Running birverifier 2024-02-20T11:09:10Z birverifier finished after 1.439 seconds 2024-02-20T11:09:10Z Running codegen 2024-02-20T11:09:15Z isa_gen finished after 5.086 seconds 2024-02-20T11:09:16Z dma_desc_gen finished after 1.291 seconds 2024-02-20T11:09:18Z debug_info_gen finished after 1.977 seconds 2024-02-20T11:09:19Z codegen finished after 8.897 seconds 2024-02-20T11:09:19Z Running neff_packager 2024-02-20T11:21:31Z neff_packager finished after 732.801 seconds 2024-02-20T11:21:43Z Compiler status PASS [Compilation Time] 2274.0 seconds. [Total compilation Time] 4372.21 seconds. Validating encoder model... Validating decoder model... Validation 0 for the model flan_ul2_neuron/encoder/model.neuron raised: Validation of encoder fails: Unknown opcode for unpickling at 0xffffffffffffff93: 147 An error occured with the error message: Validation of decoder fails: Unknown opcode for unpickling at 0xffffffffffffff8f: 143. The exported model was saved at: flan_ul2_neuron ```

Overview of compiled artifacts

``` ~/optimum-neuron$ ls -lah -R flan_ul2_neuron/ flan_ul2_neuron/: total 3.2M drwxrwxr-x 4 ubuntu ubuntu 4.0K Feb 20 10:45 . drwxrwxr-x 17 ubuntu ubuntu 4.0K Feb 20 11:21 .. -rw-rw-r-- 1 ubuntu ubuntu 665 Feb 20 10:10 added_tokens.json drwxrwxr-x 2 ubuntu ubuntu 4.0K Feb 20 11:23 decoder drwxrwxr-x 2 ubuntu ubuntu 4.0K Feb 20 10:45 encoder -rw-rw-r-- 1 ubuntu ubuntu 2.5K Feb 20 10:10 special_tokens_map.json -rw-rw-r-- 1 ubuntu ubuntu 774K Feb 20 10:10 spiece.model -rw-rw-r-- 1 ubuntu ubuntu 2.4M Feb 20 10:10 tokenizer.json -rw-rw-r-- 1 ubuntu ubuntu 26K Feb 20 10:10 tokenizer_config.json flan_ul2_neuron/decoder: total 21G drwxrwxr-x 2 ubuntu ubuntu 4.0K Feb 20 11:23 . drwxrwxr-x 4 ubuntu ubuntu 4.0K Feb 20 10:45 .. -rw-rw-r-- 1 ubuntu ubuntu 4.9K Feb 20 11:23 config.json -rw-rw-r-- 1 ubuntu ubuntu 21G Feb 20 11:23 model.neuron flan_ul2_neuron/encoder: total 20G drwxrwxr-x 2 ubuntu ubuntu 4.0K Feb 20 10:45 . drwxrwxr-x 4 ubuntu ubuntu 4.0K Feb 20 10:45 .. -rw-rw-r-- 1 ubuntu ubuntu 5.1K Feb 20 10:45 config.json -rw-rw-r-- 1 ubuntu ubuntu 20G Feb 20 10:45 model.neuron ```

chintanckg commented 7 months ago

Thank you for the update @JingyaHuang.

JingyaHuang commented 7 months ago

Hi @chintanckg, I updated my previous comment with more details. Will check if we can prioritize the integration of TP for t5 as well.

chintan-ushur commented 6 months ago

@JingyaHuang -- Please advise on below query:

In the latest announcement from Philipp, inferentia-2 instances can now host 70b parameter models like llama-70b! Does this mean it will support 20b models like Flan-UL2 inherently; please advise.

chintanckg commented 6 months ago

@JingyaHuang -- A gentle reminder.

JingyaHuang commented 5 months ago

Hi @chintanckg I'm waiting for the feedback from the Annapurna team on this as well: https://github.com/aws-neuron/aws-neuron-sdk/issues/851

chintanckg commented 5 months ago

Thanks @JingyaHuang !

huggingface / optimum-neuron