如果你曾经转写过音频、采访、会议、播客或课程,并且问过自己“有没有更简单、更便宜的办法?”,答案是有。更棒的是:你可以在自己的笔记本电脑上运行,完全不用把任何文件传到云端。
1. 这份指南适合谁
你是记者、研究人员、教师、律师、行政助理、心理咨询师、内容创作者、研究生……总之,你每个月都要处理很多小时的音频,但不是程序员。也许你已经试过在线工具,结果发现:
- 文件大小有限制(那场 2 小时的会议根本传不上去)。
- 按转写分钟收费(月底账单真的会让人心痛)。
- 无法保证隐私(你的客户音频会被送到第三方服务器)。
- 或者干脆在文件中途卡死。
这篇文章就是写给你的。我会一步一步教你如何在电脑上直接安装和使用OpenAI 的 Whisper,即使你的电脑没有很好的显卡,即使你这辈子从没打开过终端,也没关系。
2. Whisper 是什么(30 秒讲完,不讲术语)
Whisper 是 OpenAI(也就是 ChatGPT 的开发团队)创建的一个人工智能模型,用来听音频并把它转换成文字。它对葡萄牙语非常友好——口音、俚语、专业术语都能处理——而且可以离线运行,也就是说,安装完成后,不再需要互联网也能转写。
它是免费的,而且是开源的。你不用为使用付费,没有分钟限制,也没人会查看你的文件。
Whisper 有很多使用方式。这里我们将使用 Python 版的 openai-whisper,它最稳定,也最容易自动化。
3. 你需要什么(大概率你已经有了)
| 项目 | 是什么 | 最低可接受配置 |
|---|---|---|
| 电脑 | Windows 10/11、macOS 11+ 或 Linux | 近 6 年内的任意一台 |
| 内存 RAM | 电脑的“短期记忆” | 8 GB(建议 16 GB) |
| 磁盘空间 | Whisper 存放的位置 | 5 GB 可用空间 |
| 处理器 | 电脑的“脑袋” | Intel 第 8 代 i5 / Ryzen 5 2000+ 或 Apple M1+ |
| 显卡(GPU) | 加速处理——可选 | 不需要 |
| 网络连接 | 只用于安装(仅一次) | 普通宽带即可 |
| Python | 我们要使用的语言 | 3.9 至 3.12 版本 |
没有 GPU?别担心。 Whisper 可以 100% 在处理器(CPU)上运行。虽然比有显卡时慢一些,但效果是一样的——只是处理特别大的文件时,你可以去喝杯咖啡。
4. 第 1 部分——安装 Python(别害怕)
如果你已经安装了 Python,请跳到第 2 部分。没有的话,跟我来。
在 Windows 上
- 打开 python.org/downloads。
- 点击大按钮 “Download Python 3.x.x”。
- 重要:运行安装程序时,勾选底部的 “Add Python to PATH”。这是大多数人会忘记、然后反复折腾的地方。
- 点击 Install Now,完成。
在 macOS 上
打开终端(按 Cmd + 空格,输入“terminal”,然后按回车),并粘贴:
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
brew install python
在 Linux(Ubuntu/Debian)上
sudo apt update
sudo apt install python3 python3-pip python3-venv
如何确认成功
打开终端(在 Windows 上,搜索“cmd”或“PowerShell”)并输入:
python --version如果显示类似 Python 3.11.5(或类似版本),就说明你走在正确的路上。✅
5. 第 2 部分——为项目创建一个安全的小空间
这是程序员常用的技巧,目的是不把东西混在一起:我们创建一个独立文件夹,把所有需要的东西都放进去。这样如果出问题,只要删掉文件夹重新来过就行。
mkdir whisper-local
cd whisper-local
python -m venv venv现在激活这个环境:
Windows(PowerShell)
.\venv\Scripts\Activate.ps1
如果出现关于“脚本执行被禁用”的红色错误,请以管理员身份打开 PowerShell,然后运行:
Set-ExecutionPolicy -Scope CurrentUser RemoteSigned。之后关闭并重新打开。
Windows(cmd)
venv\Scripts\activate.bat
macOS / Linux
source venv/bin/activate你会注意到行首出现了 (venv)。这是好兆头——说明你已经进入了这个“小空间”。
6. 第 3 部分——安装 Whisper(魔法时刻)
在环境激活的情况下,运行:
pip install openai-whisper屏幕上会出现很多内容——下载、安装、编译。这是正常的。根据你的网络速度,可能需要 2 到 10 分钟。
接着安装 ffmpeg,它是 Whisper 在后台使用的音频“解码器”:
Windows(已安装 Chocolatey)
choco install ffmpeg如果没有 Chocolatey:请从 gyan.dev/ffmpeg/builds 下载,解压后将 bin 文件夹添加到 Windows 的 PATH 中。
macOS
brew install ffmpeg
Linux(Ubuntu/Debian)
sudo apt install ffmpeg
7. 第 4 部分——你的第一次转写
在 whisper-local 文件夹里创建一个名为 transcrever.py 的文件(可以用记事本、VS Code,或任何你喜欢的工具),然后粘贴以下内容:
import whisper
# 加载模型。第一次运行时,它会从互联网下载(大约 150 MB)。
# 选项:tiny | base | small | medium | large
# tiny 和 base = 更快,质量较低
# small 和 medium = 对 CPU 来说最均衡
# large = 质量最好,但需要更好的机器
modelo = whisper.load_model("small")
# 在这里填写你的文件路径(mp3、m4a、wav、mp4 等)
arquivo = "minha_reuniao.mp3"
# 魔法在这里发生
resultado = modelo.transcribe(arquivo, language="portuguese")
# 保存为文本文件
with open("transcricao.txt", "w", encoding="utf-8") as f:
f.write(resultado["text"])
print("✅ 完成!文件已保存为 transcricao.txt")如何使用:
- 把一个音频文件(例如
minha_reuniao.mp3)放进whisper-local文件夹。 - 在终端中(确保
(venv)仍处于激活状态)运行:python transcrever.py - 去喝杯咖啡。☕ 对于 30 分钟的音频,预计需要 10 到 25 分钟(取决于你的处理器)。
- 回来后,打开
transcricao.txt文件,看看魔法。
8. 第 5 部分——增强版(带时间戳和字幕)
如果你需要知道每句话是在哪一分钟说的(用于字幕、在论文中引用片段,或者查找会议中的某一部分),请使用这个版本:
import whisper
from whisper.utils import get_writer
modelo = whisper.load_model("small")
resultado = modelo.transcribe(
"minha_reuniao.mp3",
language="portuguese",
task="transcribe",
verbose=True # 实时显示进度
)
# 纯文本
with open("transcricao.txt", "w", encoding="utf-8") as f:
f.write(resultado["text"])
# .srt 字幕(非常适合视频)
escritor = get_writer("srt", ".")
escritor(resultado, "minha_reuniao.mp3")
print("✅ 文本和 .srt 字幕已生成!")额外提示:如果需要网页字幕,可以把 "srt" 换成 "vtt";如果想要一个每句话一行的表格(带开始时间、结束时间和文本),可以换成 "tsv"。
9. 实用技巧(节省大量时间的部分)
9.1. 选择合适的模型
| 模型 | 大小 | 所需 RAM | CPU 速度 | 质量 |
|---|---|---|---|---|
tiny |
75 MB | 约 1 GB | ⚡⚡⚡⚡⚡ | ⭐⭐ |
base |
140 MB | 约 1 GB | ⚡⚡⚡⚡ | ⭐⭐⭐ |
small |
460 MB | 约 2 GB | ⚡⚡⚡ | ⭐⭐⭐⭐ |
medium |
1.5 GB | 约 5 GB | ⚡⚡ | ⭐⭐⭐⭐⭐ |
large |
3 GB | 约 10 GB | ⚡ | ⭐⭐⭐⭐⭐ |
我给初学者的真诚建议:选择 small。它在普通电脑上的速度和质量最平衡。如果你发现专有名词或技术术语错得很多,就升级到 medium。
9.2. 一次转写多个文件
import whisper
from pathlib import Path
modelo = whisper.load_model("small")
pasta = Path("./audios") # 把你的文件放到这个文件夹里
for arquivo in pasta.glob("*"):
if arquivo.suffix.lower() in [".mp3", ".wav", ".m4a", ".mp4"]:
print(f"🎙️ 正在转写:{arquivo.name}")
resultado = modelo.transcribe(str(arquivo), language="portuguese")
saida = arquivo.with_suffix(".txt")
saida.write_text(resultado["text"], encoding="utf-8")
print("✅ 所有文件都已转写!")
9.3. 将其他语言的音频翻译成葡萄牙语
resultado = modelo.transcribe("palestra_ingles.mp3", task="translate")它会把英文音频翻译成葡萄牙语。对经常接触外文内容的人来说非常有用。
9.4. 强制转写更好地识别特定术语
resultado = modelo.transcribe(
"entrevista.mp3",
language="portuguese",
initial_prompt="与 Dr. Almeida 关于 LGPD、COAF 和 compliance 的访谈。"
)initial_prompt 就像“上下文”——Whisper 会借助它更好地理解内容,减少专有名词和专业术语的错误。
10. 常见问题(以及如何解决)
❌ “ModuleNotFoundError: No module named 'whisper'”
你大概率是在运行前忘记激活 (venv) 了。回去把它激活。
❌ “ffmpeg not found”
说明 ffmpeg 没装好,或者没有加入 PATH。请按照第 3 部分重新安装。
❌ 进程因为内存错误崩溃
试试更小的模型(tiny 或 base),或者在转写时关闭浏览器、Spotify 和其他占内存的大程序。
❌ 转写质量不好
- 检查音频是否有太多背景噪音。Whisper 很神,但糟糕的音频还是会变成糟糕的文本。
- 试试更大的模型(
small→medium)。 - 使用带有你所在领域关键词的
initial_prompt技巧。
❌ 太慢了
- 很长的音频(超过 1 小时)在 CPU 上处理几个小时也是正常的。
- 如果你有很多文件,可以让电脑晚上开着继续处理。
- 如果这已经成为你工作中的持续问题,也许值得投资更强大的方案(下面会讲到 👇)。
11. 当“自己动手”开始拖后腿时怎么办?
说实话:本地 Whisper 很棒,但它并不总是日常工作的最佳选择。在你接下来一周都在配置这些东西之前,先问问自己:
- 📦 你每周转写超过 10 小时音频吗? 那可能已经到了该使用自动化流程的时候了(输入文件夹 → 转写 → 最终表格或文档自动生成)。
- 👥 你或你的团队是否把大量时间浪费在重复任务上(重命名文件、按采访对象拆分转写、生成摘要、排版)?
- 🔒 音频是否很敏感(客户、患者、法律案件),并且你需要确保没有任何内容离开你的电脑?
- 📊 你是否需要把转写结果 集成到其他工具中(Google 表格、Notion、CRM、起诉书生成器等)?
如果你对以上至少一个问题回答的是是,那也许就不该继续手工处理了。
这正是我们介入的地方。
👋 认识一下 Vem pra Descomplica
我们是一支把技术难题从你面前移开的团队,让你能回到工作中真正重要的事情上。我们帮助个人和企业:
- 🛠️ 在你的电脑上搭建本地转写环境(没错,我们会通过视频通话帮你安装和配置好一切,你完全不用学 Python)。
- ⚙️ 创建自动化流程,把音频自动转换成文字、摘要、表格、会议纪要、视频字幕。
- 🔐 为处理敏感数据的人提供100% 本地化方案(法律、医疗、学术研究)。
- 🧩 根据你已经在用的工具进行定制集成(Google Drive、Notion、ClickUp、表格、电子邮件等)。
- 🧪 为想在投资前测试转写 AI 的公司提供POC 和概念验证。
你不需要变成程序员才能让人工智能为你所用。你只需要有人帮你把它变简单。
12. 总结一下(给只想要速查版的人)
- 安装 Python 3.9+(别忘了在 Windows 上勾选“Add to PATH”)。
- 创建一个文件夹,在里面打开终端,然后运行
python -m venv venv。 - 激活环境(Windows 上用
.\venv\Scripts\Activate.ps1,Mac/Linux 上用source venv/bin/activate)。 - 运行
pip install openai-whisper并安装 ffmpeg。 - 复制第 4 部分的脚本,修改音频文件名,然后运行
python transcrever.py。 - 打开
transcricao.txt,庆祝一下。🎉
好了。你刚刚已经在自己的机器上 100% 本地运行 AI 完成了音频转写,不用付费,不用把任何内容上传云端,也没有时间限制。若有一天这成为你工作中的瓶颈——你已经知道该找谁了。😉