🎙️实现本地化语音转写

宝昌字数: 3930 阅读耗时: 9 分钟 2023/10/22 博客独享热度: 356 评论:

<hao-tip class="bell" content='bell'>剪辑工作中时常有将录制内容输出文字稿的需求，便试着借助 OpenAI 公司的 Whisper 并搭载 GGML 模型来实现本地化音频转文字与实时录制转写。相比于讯飞听见、网易见外等在线 STT 平台，在提升制作效率的同时，保障数据传输的安全性☂️</hao-tip>

准备部分

这里采用的是由 Const-me 提供的 Whisper 客户端
首先下载并保存 `Whisper` 程序主体解压至本地

<hao-tag-link link="https://fxhub.cn/d/App%EF%BD%9C%E5%BA%94%E7%94%A8%E7%A8%8B%E5%BA%8F/Windows/%E7%94%9F%E6%88%90%E5%BC%8FAI/%5B%E8%AF%AD%E9%9F%B3%E8%BD%AC%E6%96%87%E6%9C%AC%5DWhisper/WhisperDesktop.zip" logo="https://api.iowen.cn/favicon/fxhub.cn.png" title="获取WhisperDesktop.zip" described="fxhub.cn"></hao-tag-link>

下载并保存 `GGML` 模型文件

<hao-tag-link link="https://fxhub.cn/d/App%EF%BD%9C%E5%BA%94%E7%94%A8%E7%A8%8B%E5%BA%8F/Windows/%E7%94%9F%E6%88%90%E5%BC%8FAI/%5B%E8%AF%AD%E9%9F%B3%E8%BD%AC%E6%96%87%E6%9C%AC%5DWhisper/ggml-medium.bin" logo="https://api.iowen.cn/favicon/fxhub.cn.png" title="获取ggml-medium.bin" described="fxhub.cn"></hao-tag-link>

运行 WhisperDesktop 目录内的 `WhisperDesktop.exe`
弹出程序窗口后，点击 Model Path 右侧 … 选择已保存的 ggml-medium.bin 文件

一、音频转文字

在 Language 内选择文件内的语言（Chinese）

分别在下面两个路径地址框后方选择需转换的文件和输出数据文件的位置
在 Output Format 选择输出数据类型：
点击 Transcribe 开始转换，等候弹窗提示完成即可

二、实时录制转写

点击底部 Audio Capture 切换模式
选择 Capture Device 录制设备

勾选 Save to text file 并输出文字文件位置
点击 Capture 开始转换

<hao-note class="simple" style="success">此时可以开始对着麦克风发言</hao-note>

弹出的窗口内将展示已转换的内容（支持多语种混淆转译）

发言完毕后点击原窗口 Stop 即可结束录制
文件将保存在此前设置的位置！Enjoy~

🌟 One more thing
此外推荐个更易上手的 Whisper 客户端 —— Memo

<hao-tag-link link="https://store.memo.ac/" logo="https://api.iowen.cn/favicon/store.memo.ac.png" title="测试资格需自行申请" described="store.memo.ac"></hao-tag-link>