Reproduce

open Google colab (with GPU instance) -run:


!pip install --upgrade transformers pyannote.audio
!pip install speechbox
!pip install --upgrade datasets

import torch from speechbox import ASRDiarizationPipeline from datasets import load_dataset

device = "cuda:0" if torch.cuda.is_available() else "cpu" pipeline = ASRDiarizationPipeline.from_pretrained("openai/whisper-tiny", device=device)

load dataset of concatenated LibriSpeech samples

concatenated_librispeech = load_dataset("sanchit-gandhi/concatenated_librispeech", split="train", streaming=True)

get first sample

sample = next(iter(concatenated_librispeech))

out = pipeline(sample["audio"]) print(out)


---

# Error

OSError Traceback (most recent call last) in <cell line: 2>() 1 import torch ----> 2 from speechbox import ASRDiarizationPipeline 3 from datasets import load_dataset 4 5 device = "cuda:0" if torch.cuda.is_available() else "cpu"

17 frames /usr/lib/python3.9/ctypes/init.py in init(self, name, mode, handle, use_errno, use_last_error, winmode) 372 373 if handle is None: --> 374 self._handle = _dlopen(self._name, mode) 375 else: 376 self._handle = handle

OSError: /usr/local/lib/python3.9/dist-packages/torchtext/lib/libtorchtext.so: undefined symbol: _ZN2at4_ops10select_int4callERKNS_6TensorElN3c106SymIntE