我最近迷上了discoveryplus.com节目,但是英语不行,看不明白,就想着根据视频里声音翻译出字幕,按着这个思路开始折腾之路。
whisper是OpenAI公司出品的AI字幕神器,是目前最好的语音生成字幕工具之一,开源且支持本地部署,支持多种语言识别(英语识别准确率非常惊艳)。这篇文章应该是网上目前关于Windows系统部署whisper最全面的中文攻略。
whisper开源地址:https://github.com/openai/whisper
whisper是一个纯命令行工具,所以我再介绍whisper的两个衍生项目:whisper-webui(WebUI版whisper)和buzz(GUI版whisper)。
whisper-webui开源地址:https://huggingface.co/spaces/aadnk/whisper-webui
buzz开源地址:https://github.com/chidiwilliams/buzz
在 Windows 上安装:python
安装步骤如下:
下载地址 https://www.python.org/downloads/
下载完成后,开始安装
最下方,选择环境变量里面添加 python
然后不要选择默认 install now,安装软件还是要养成习惯,尽量不要安装到C盘
选择 Customize installation, 然后下一步
选择为所有用户安装,选择修改安装路径为D盘,点击 install开始安装,正常会自动安装完成。
验证是否安装正确
打开命令窗口 输入 python –verison 显示版本为3.12.0
输入python 回车 进入python编码控制台 输出一个 hello python
如果能正常显示,说明安装正确
说明:如果提示找不到 python 可能是因为安装的时候没有选择 添加路径,可以自己打开环境变量页面,自己把安装的python路径手工添加进去
路径一定是python.exe所在文件夹,以及该文件夹下面的Scripts文件夹
在 Windows 上安装:git
在 Windows 上安装 Git 也有几种安装方法。 官方版本可以在 Git 官方网站下载。 打开 https://git-scm.com/download/win,下载会自动开始。 要注意这是一个名为 Git for Windows 的项目(也叫做 msysGit),和 Git 是分别独立的项目;更多信息请访问 http://msysgit.github.io/。
要进行自动安装,你可以使用 Git Chocolatey 包。 注意 Chocolatey 包是由社区维护的。
另一个简单的方法是安装 GitHub Desktop。 该安装程序包含图形化和命令行版本的 Git。 它也能支持 Powershell,提供了稳定的凭证缓存和健全的换行设置。 稍后我们会对这方面有更多了解,现在只要一句话就够了,这些都是你所需要的。 你可以在 GitHub for Windows 网站下载,网址为 GitHub Desktop 网站。
介绍一下whisper-webui
首先把whisper-webui的仓库git下来:
git clone https://huggingface.co/spaces/aadnk/whisper-webui
然后进入目录运行安装命令(安装时间取决于网络):
pip install -r requirements.txt pip install -r requirements-fasterWhisper.txt
已经安装了whisper的话,可以去掉这行:git+https://github.com/openai/whisper.git
安装过程出现:windows限制了路径过长造成的
ERROR: Could not install packages due to an OSError: [Errno 2] No such file or directory: ‘C:\\Users\\VJ\\AppData\\Local\\Packages\\PythonSoftwareFoundation.Python.3.11_qbz5n2kfra8p0\\LocalCache\\local-packages\\Python311\\site-packages\\transformers\\models\\deprecated\\trajectory_transformer\\convert_trajectory_transformer_original_pytorch_checkpoint_to_pytorch.py’
HINT: This error might have occurred since this system does not have Windows Long Path support enabled. You can find information on how to enable this at https://pip.pypa.io/warnings/enable-long-paths
解决方案:
该注册表项Computer\HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\FileSystem\LongPathsEnabled (Type: REG_DWORD)
必须存在并设置为 1。
运行命令:python app.py –input_audio_max_duration -1
页面选择说明:https://gitlab.com/aadnk/whisper-webui/-/blob/main/docs/options.md
model放在位置:C:\Users\VJ\.cache\whisper(VJ是自己的用户名)
提取出来的字幕位置:C:\Users\VJ\AppData\Local\Temp\gradio
—————————–待续研究中—————————-初步的结果是可以翻译出字幕了。
下载discoveryplus.com用的是StreamFab Downloader。
现阶段没有找到很好用的视频提取音频的方案。发现一个更好的声音提取字幕方案:Adobe Premiere Pro 2024
可以直接快速提取声音变成字幕。
暂无评论内容