Open szwnba opened 2 months ago
这个是现在正筹备的项目中的具体一步骤,可以说是十分关键。
废话不多说,直接来看操作步骤。
如果暂时用不上,可以先关注收藏,我后面会慢慢把这个项目的具体步骤更新到公众号文章上。
01安装 python
需要先安装 python 配置,此处需注意,必须要3.10及以上才可以。
打开 python 官网,安装 3.11 版本即可
https://www.python.org/downloads/windows/
注意,下载好安装时候,一定要勾选 add to path
安装完毕可以,可以使用 win + R 快捷键,输入 cmd 后回车
在新窗口直接输入 python,如果出现以下界面,3.11 版本,就说明安装成功了,可以进行下一步
我本身是用 Pycharm 来调用 python 程序代码,属于是个人习惯,用什么都可以。
这里我先用 Pycharm 来实现,如果你用其他编译器,遇到问题直接问 AI 即可。
02 安装必要的东西--ffmpeg
首先安装 ffmpeg,用于视频剪辑的东西,是 moviepy 这个库需要用到,可以用于从视频中提取音频。
https://www.gyan.dev/ffmpeg/builds/
随便下载一个稳定版本即可,它是一个压缩包。
解压到想要的路径下就好,还有用,一会儿要添加进 Path 环境变量。
C:\Aster\package\ffmpeg-2024-06-21-git-d45e20c37b-essentials_build\bin
打开解压后文件的 bin,然后复制路径。
按 win 键,搜索出编辑系统环境变量
按顺序找到 环境变量-Path,然后编辑-新建
输入我们刚刚复制的 bin 路径,添加后点击确定即可。
此时,win + R ,输入 cmd 回车,呼出窗口,输入 ffmpeg,如果出现下图界面,说明安装成功了
接下来我们需要安装 python 软件包
pip install opencc openai-whisper
注意,python 自带的 torch 可能会出问题,所以也需要先卸载再安装
pip uninstall torch pip install torch
pip uninstall torch
pip install torch
而且有可能 2.0 版的 numpy 无法运行,所以也许先卸载再安装
pip uninstall numpy pip install numpy==1.26.4
pip uninstall numpy
pip install numpy==1.26.4
03 准备素材,开始音频转文字
安装完毕后,只需要准备一条素材即可,可以是 MP3,也可以是 wav 格式的。
我准备的是 MP3 格式的素材
import time import whisper import opencc def a2text(model_type, path): start_time = time.time() model = whisper.load_model(model_type) result = model.transcribe(path) cc = opencc.OpenCC("t2s") res = cc.convert(result['text']) print(res) end_time = time.time() execution_time = end_time - start_time print(f"总耗时:{execution_time}") path = "test.mp3" a2text("tiny", path)
注意,第一次运行时候,会联网下载该模型,可能需要一段时间。
04 转化结果
可以看到,用了最小的模型,只需要 1s 多就能识别 10s 左右的 MP3 音频。
当然,由于是小模型,难免识别不准确,后面可以用大一点的模型来识别。
同时,也报错提醒我说,没有使用 GPU,所以精度低。
后面再出教程,如何使用本地显卡来加速推理,毕竟,买的 4090D 可不能浪费了呀。
关于不同模型的识别速度,后面再做一期评测~
04
openai 开源的 Whisper 模型,有多个版本,主要看你的电脑配置,配置需求从低到高分别是:
也可以是 tiny、base、small、medium、large
按需更改即可,当然,越好的模型,需要配置越高。
05
我是想象力AI,写过很多个有意思的自动化机器人,有小红书自动发图、抖音自动涨粉、和微信自动加好友拉群等等。
如果你感兴趣的话,千万记得要加我 aiaiai2098,一起交流。
往期文章:
用 AI 帮忙养狗?Kimi 助我一臂之力,居然把小狗训练成了小机灵鬼
盘点一下之前写过的AI、RPA机器人(内附使用教程)
当我把1340条笔记喂给kimi时,它比我还懂我自己。
必看!RPA 自动化开发效率增加100%
记录 | 学习实践 AI 一年,我赚了多少钱?
这个是现在正筹备的项目中的具体一步骤,可以说是十分关键。
废话不多说,直接来看操作步骤。
如果暂时用不上,可以先关注收藏,我后面会慢慢把这个项目的具体步骤更新到公众号文章上。
01安装 python
需要先安装 python 配置,此处需注意,必须要3.10及以上才可以。
打开 python 官网,安装 3.11 版本即可
注意,下载好安装时候,一定要勾选 add to path
安装完毕可以,可以使用 win + R 快捷键,输入 cmd 后回车
在新窗口直接输入 python,如果出现以下界面,3.11 版本,就说明安装成功了,可以进行下一步
我本身是用 Pycharm 来调用 python 程序代码,属于是个人习惯,用什么都可以。
这里我先用 Pycharm 来实现,如果你用其他编译器,遇到问题直接问 AI 即可。
02 安装必要的东西--ffmpeg
首先安装 ffmpeg,用于视频剪辑的东西,是 moviepy 这个库需要用到,可以用于从视频中提取音频。
https://www.gyan.dev/ffmpeg/builds/
随便下载一个稳定版本即可,它是一个压缩包。
解压到想要的路径下就好,还有用,一会儿要添加进 Path 环境变量。
打开解压后文件的 bin,然后复制路径。
按 win 键,搜索出编辑系统环境变量
按顺序找到 环境变量-Path,然后编辑-新建
输入我们刚刚复制的 bin 路径,添加后点击确定即可。
此时,win + R ,输入 cmd 回车,呼出窗口,输入 ffmpeg,如果出现下图界面,说明安装成功了
接下来我们需要安装 python 软件包
注意,python 自带的 torch 可能会出问题,所以也需要先卸载再安装
而且有可能 2.0 版的 numpy 无法运行,所以也许先卸载再安装
03 准备素材,开始音频转文字
安装完毕后,只需要准备一条素材即可,可以是 MP3,也可以是 wav 格式的。
我准备的是 MP3 格式的素材
注意,第一次运行时候,会联网下载该模型,可能需要一段时间。
04 转化结果
可以看到,用了最小的模型,只需要 1s 多就能识别 10s 左右的 MP3 音频。
当然,由于是小模型,难免识别不准确,后面可以用大一点的模型来识别。
同时,也报错提醒我说,没有使用 GPU,所以精度低。
后面再出教程,如何使用本地显卡来加速推理,毕竟,买的 4090D 可不能浪费了呀。
关于不同模型的识别速度,后面再做一期评测~
04
openai 开源的 Whisper 模型,有多个版本,主要看你的电脑配置,配置需求从低到高分别是:
也可以是 tiny、base、small、medium、large
按需更改即可,当然,越好的模型,需要配置越高。
05
我是想象力AI,写过很多个有意思的自动化机器人,有小红书自动发图、抖音自动涨粉、和微信自动加好友拉群等等。
如果你感兴趣的话,千万记得要加我 aiaiai2098,一起交流。
往期文章:
用 AI 帮忙养狗?Kimi 助我一臂之力,居然把小狗训练成了小机灵鬼
盘点一下之前写过的AI、RPA机器人(内附使用教程)
当我把1340条笔记喂给kimi时,它比我还懂我自己。
必看!RPA 自动化开发效率增加100%
记录 | 学习实践 AI 一年,我赚了多少钱?