剪辑工作中时常有将录制内容输出文字稿的需求,便试着借助 OpenAI 公司的 Whisper 并搭载 GGML 模型来实现本地化音频转文字与实时录制转写。相比于讯飞听见网易见外等在线 STT 平台,在提升制作效率的同时,保障数据传输的安全性☂️

准备部分

  1. 这里采用的是由 Const-me 提供的 Whisper 客户端

  2. 首先下载并保存 `Whisper` 程序主体解压至本地

  1. 下载并保存 `GGML` 模型文件

  1. 运行 WhisperDesktop 目录内的 `WhisperDesktop.exe`

  2. 弹出程序窗口后,点击 Model Path 右侧 选择已保存的 ggml-medium.bin 文件

一、音频转文字

  1. 在 Language 内选择文件内的语言(Chinese)

  1. 分别在下面两个路径地址框后方选择需转换的文件和输出数据文件的位置

  2. 在 Output Format 选择输出数据类型:

  3. 点击 Transcribe 开始转换,等候弹窗提示完成即可

二、实时录制转写

  1. 点击底部 Audio Capture 切换模式

  2. 选择 Capture Device 录制设备

  1. 勾选 Save to text file 并输出文字文件位置

  2. 点击 Capture 开始转换

此时可以开始对着麦克风发言

  1. 弹出的窗口内将展示已转换的内容(支持多语种混淆转译)

  1. 发言完毕后点击原窗口 Stop 即可结束录制

  2. 文件将保存在此前设置的位置!Enjoy~

🌟 One more thing

此外推荐个更易上手的 Whisper 客户端 —— Memo
Memo界面