教程 | 用 openai 开源模型 whisper 实现音频转文字

这个是现在正筹备的项目中的具体一步骤，可以说是十分关键。

废话不多说，直接来看操作步骤。

如果暂时用不上，可以先关注收藏，我后面会慢慢把这个项目的具体步骤更新到公众号文章上。

01安装 python

需要先安装 python 配置，此处需注意，必须要3.10及以上才可以。

打开 python 官网，安装 3.11 版本即可

https://www.python.org/downloads/windows/

注意，下载好安装时候，一定要勾选 add to path

安装完毕可以，可以使用 win + R 快捷键，输入 cmd 后回车

在新窗口直接输入 python，如果出现以下界面，3.11 版本，就说明安装成功了，可以进行下一步

我本身是用 Pycharm 来调用 python 程序代码，属于是个人习惯，用什么都可以。

这里我先用 Pycharm 来实现，如果你用其他编译器，遇到问题直接问 AI 即可。

02 安装必要的东西--ffmpeg

首先安装 ffmpeg，用于视频剪辑的东西，是 moviepy 这个库需要用到，可以用于从视频中提取音频。

https://www.gyan.dev/ffmpeg/builds/

随便下载一个稳定版本即可，它是一个压缩包。

解压到想要的路径下就好，还有用，一会儿要添加进 Path 环境变量。

C:\Aster\package\ffmpeg-2024-06-21-git-d45e20c37b-essentials_build\bin

打开解压后文件的 bin，然后复制路径。

按 win 键，搜索出编辑系统环境变量

按顺序找到环境变量-Path，然后编辑-新建

输入我们刚刚复制的 bin 路径，添加后点击确定即可。

此时，win + R ，输入 cmd 回车，呼出窗口，输入 ffmpeg，如果出现下图界面，说明安装成功了

接下来我们需要安装 python 软件包

pip install opencc openai-whisper

注意，python 自带的 torch 可能会出问题，所以也需要先卸载再安装

pip uninstall torch

pip install torch

而且有可能 2.0 版的 numpy 无法运行，所以也许先卸载再安装

pip uninstall numpy

pip install numpy==1.26.4

03 准备素材，开始音频转文字

安装完毕后，只需要准备一条素材即可，可以是 MP3，也可以是 wav 格式的。

我准备的是 MP3 格式的素材

import time
import whisper
import opencc

def a2text(model_type, path):
    start_time = time.time()  

    model = whisper.load_model(model_type)

    result = model.transcribe(path)
    cc = opencc.OpenCC("t2s")
    res = cc.convert(result['text'])
    print(res)
    end_time = time.time()  
    execution_time = end_time - start_time  
    print(f"总耗时：{execution_time}")

path = "test.mp3"
a2text("tiny", path)

注意，第一次运行时候，会联网下载该模型，可能需要一段时间。