[Triton] Multilingual Transformer Fails on 2nd request

Csinclair0 commented 1 year ago

I am trying to serve a multilingual transformer on triton. The server is able to process the first request, but the second fails. It seems to first have an issue receiving the request. In my client script, I am sending the same request of

[0, 1, 160001, 7286, 3026, 1710, 374, 23, 3026, 2, 0]

As you can see in the logs, it is properly received the first time.

batch_size-1 batch_seq_len-10
batch_token_ids: 160001, 7286, 3026, 1710, 374, 23, 3026, 2, 0, 0,

However, the second time it seems to skip the first two inputs as it logs

batch_size-1 batch_seq_len-10
batch_token_ids: 3026, 1710, 374, 23, 3026, 2, 0, 0, 0, 0,

and it will then run into an error.

emb out: token-0
emb out: terminate called after throwing an instance of 'std::runtime_error'
  what():  [CUDA][ERROR] /opt/lightseq/lightseq/inference/tools/util.cc.cu(66): cudaErrorIllegalAddressan illegal memory access was encountered

Signal (6) received.
 0# 0x000055DD62122EB9 in tritonserver
 1# 0x00007FB7FBCAF210 in /usr/lib/x86_64-linux-gnu/libc.so.6
 2# gsignal in /usr/lib/x86_64-linux-gnu/libc.so.6
 3# abort in /usr/lib/x86_64-linux-gnu/libc.so.6
 4# 0x00007FB7FC065911 in /usr/lib/x86_64-linux-gnu/libstdc++.so.6
 5# 0x00007FB7FC07138C in /usr/lib/x86_64-linux-gnu/libstdc++.so.6
 6# 0x00007FB7FC0713F7 in /usr/lib/x86_64-linux-gnu/libstdc++.so.6
 7# 0x00007FB7FC0716A9 in /usr/lib/x86_64-linux-gnu/libstdc++.so.6
 8# void lightseq::cuda::check_gpu_error<cudaError>(cudaError, char const*, char const*, int) in /opt/tritonserver/lib/libliblightseq.so
 9# void lightseq::cuda::print_vec<__half>(__half const*, std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> >, int) in /opt/tritonserver/lib/libliblightseq.so
10# lightseq::cuda::Encoder<(lightseq::cuda::OperationType)1>::run_one_infer(int, int) in /opt/tritonserver/lib/libliblightseq.so
11# lightseq::cuda::Transformer::Infer() in /opt/tritonserver/lib/libliblightseq.so
12# TRITONBACKEND_ModelInstanceExecute in /opt/tritonserver/backends/lightseq/libtriton_lightseq.so
13# 0x00007FB7FC83710A in /opt/tritonserver/lib/libtritonserver.so
14# 0x00007FB7FC8379B7 in /opt/tritonserver/lib/libtritonserver.so
15# 0x00007FB7FC6E33C1 in /opt/tritonserver/lib/libtritonserver.so
16# 0x00007FB7FC830F87 in /opt/tritonserver/lib/libtritonserver.so
17# 0x00007FB7FC09DDE4 in /usr/lib/x86_64-linux-gnu/libstdc++.so.6
18# 0x00007FB7FC51B609 in /usr/lib/x86_64-linux-gnu/libpthread.so.0
19# clone in /usr/lib/x86_64-linux-gnu/libc.so.6

Signal (11) received.
 0# 0x000055DD62122EB9 in tritonserver
 1# 0x00007FB7FBCAF210 in /usr/lib/x86_64-linux-gnu/libc.so.6
 2# abort in /usr/lib/x86_64-linux-gnu/libc.so.6
 3# 0x00007FB7FC065911 in /usr/lib/x86_64-linux-gnu/libstdc++.so.6
 4# 0x00007FB7FC07138C in /usr/lib/x86_64-linux-gnu/libstdc++.so.6
 5# 0x00007FB7FC0713F7 in /usr/lib/x86_64-linux-gnu/libstdc++.so.6
 6# 0x00007FB7FC0716A9 in /usr/lib/x86_64-linux-gnu/libstdc++.so.6
 7# void lightseq::cuda::check_gpu_error<cudaError>(cudaError, char const*, char const*, int) in /opt/tritonserver/lib/libliblightseq.so
 8# void lightseq::cuda::print_vec<__half>(__half const*, std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> >, int) in /opt/tritonserver/lib/libliblightseq.so
 9# lightseq::cuda::Encoder<(lightseq::cuda::OperationType)1>::run_one_infer(int, int) in /opt/tritonserver/lib/libliblightseq.so
10# lightseq::cuda::Transformer::Infer() in /opt/tritonserver/lib/libliblightseq.so
11# TRITONBACKEND_ModelInstanceExecute in /opt/tritonserver/backends/lightseq/libtriton_lightseq.so
12# 0x00007FB7FC83710A in /opt/tritonserver/lib/libtritonserver.so
13# 0x00007FB7FC8379B7 in /opt/tritonserver/lib/libtritonserver.so
14# 0x00007FB7FC6E33C1 in /opt/tritonserver/lib/libtritonserver.so
15# 0x00007FB7FC830F87 in /opt/tritonserver/lib/libtritonserver.so
16# 0x00007FB7FC09DDE4 in /usr/lib/x86_64-linux-gnu/libstdc++.so.6
17# 0x00007FB7FC51B609 in /usr/lib/x86_64-linux-gnu/libpthread.so.0
18# clone in /usr/lib/x86_64-linux-gnu/libc.so.6

multilingual_logs.txt