如何在本地使用 Whisper 转录音频，使用 AI、无需 GPU、也不依赖云端

如果你曾经转写过音频、采访、会议、播客或课程，并且问过自己“有没有更简单、更便宜的办法？”，答案是有。更棒的是：你可以在自己的笔记本电脑上运行，完全不用把任何文件传到云端。

1. 这份指南适合谁

你是记者、研究人员、教师、律师、行政助理、心理咨询师、内容创作者、研究生……总之，你每个月都要处理很多小时的音频，但不是程序员。也许你已经试过在线工具，结果发现：

文件大小有限制（那场 2 小时的会议根本传不上去）。
按转写分钟收费（月底账单真的会让人心痛）。
无法保证隐私（你的客户音频会被送到第三方服务器）。
或者干脆在文件中途卡死。

这篇文章就是写给你的。我会一步一步教你如何在电脑上直接安装和使用OpenAI 的 Whisper，即使你的电脑没有很好的显卡，即使你这辈子从没打开过终端，也没关系。

2. Whisper 是什么（30 秒讲完，不讲术语）

Whisper 是 OpenAI（也就是 ChatGPT 的开发团队）创建的一个人工智能模型，用来听音频并把它转换成文字。它对葡萄牙语非常友好——口音、俚语、专业术语都能处理——而且可以离线运行，也就是说，安装完成后，不再需要互联网也能转写。

它是免费的，而且是开源的。你不用为使用付费，没有分钟限制，也没人会查看你的文件。

Whisper 有很多使用方式。这里我们将使用 Python 版的 openai-whisper，它最稳定，也最容易自动化。

3. 你需要什么（大概率你已经有了）

项目	是什么	最低可接受配置
电脑	Windows 10/11、macOS 11+ 或 Linux	近 6 年内的任意一台
内存 RAM	电脑的“短期记忆”	8 GB（建议 16 GB）
磁盘空间	Whisper 存放的位置	5 GB 可用空间
处理器	电脑的“脑袋”	Intel 第 8 代 i5 / Ryzen 5 2000+ 或 Apple M1+
显卡（GPU）	加速处理——可选	不需要
网络连接	只用于安装（仅一次）	普通宽带即可
Python	我们要使用的语言	3.9 至 3.12 版本

没有 GPU？别担心。 Whisper 可以 100% 在处理器（CPU）上运行。虽然比有显卡时慢一些，但效果是一样的——只是处理特别大的文件时，你可以去喝杯咖啡。

4. 第 1 部分——安装 Python（别害怕）

如果你已经安装了 Python，请跳到第 2 部分。没有的话，跟我来。

在 Windows 上

打开 python.org/downloads。
点击大按钮 “Download Python 3.x.x”。
重要：运行安装程序时，勾选底部的 “Add Python to PATH”。这是大多数人会忘记、然后反复折腾的地方。
点击 Install Now，完成。

在 macOS 上

打开终端（按 Cmd + 空格，输入“terminal”，然后按回车），并粘贴：

/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
brew install python

在 Linux（Ubuntu/Debian）上

sudo apt update
sudo apt install python3 python3-pip python3-venv

如何确认成功

打开终端（在 Windows 上，搜索“cmd”或“PowerShell”）并输入：

python --version

如果显示类似 Python 3.11.5（或类似版本），就说明你走在正确的路上。✅

5. 第 2 部分——为项目创建一个安全的小空间

这是程序员常用的技巧，目的是不把东西混在一起：我们创建一个独立文件夹，把所有需要的东西都放进去。这样如果出问题，只要删掉文件夹重新来过就行。

mkdir whisper-local
cd whisper-local
python -m venv venv

现在激活这个环境：

Windows（PowerShell）

.\venv\Scripts\Activate.ps1

如果出现关于“脚本执行被禁用”的红色错误，请以管理员身份打开 PowerShell，然后运行：Set-ExecutionPolicy -Scope CurrentUser RemoteSigned。之后关闭并重新打开。

Windows（cmd）

venv\Scripts\activate.bat

macOS / Linux

source venv/bin/activate

你会注意到行首出现了 (venv)。这是好兆头——说明你已经进入了这个“小空间”。

6. 第 3 部分——安装 Whisper（魔法时刻）

在环境激活的情况下，运行：

pip install openai-whisper

屏幕上会出现很多内容——下载、安装、编译。这是正常的。根据你的网络速度，可能需要 2 到 10 分钟。

接着安装 ffmpeg，它是 Whisper 在后台使用的音频“解码器”：

Windows（已安装 Chocolatey）

choco install ffmpeg

如果没有 Chocolatey：请从 gyan.dev/ffmpeg/builds 下载，解压后将 bin 文件夹添加到 Windows 的 PATH 中。

macOS

brew install ffmpeg

Linux（Ubuntu/Debian）

sudo apt install ffmpeg

7. 第 4 部分——你的第一次转写

在 whisper-local 文件夹里创建一个名为 transcrever.py 的文件（可以用记事本、VS Code，或任何你喜欢的工具），然后粘贴以下内容：

import whisper

# 加载模型。第一次运行时，它会从互联网下载（大约 150 MB）。
# 选项：tiny | base | small | medium | large
# tiny 和 base = 更快，质量较低
# small 和 medium = 对 CPU 来说最均衡
# large = 质量最好，但需要更好的机器
modelo = whisper.load_model("small")

# 在这里填写你的文件路径（mp3、m4a、wav、mp4 等）
arquivo = "minha_reuniao.mp3"

# 魔法在这里发生
resultado = modelo.transcribe(arquivo, language="portuguese")

# 保存为文本文件
with open("transcricao.txt", "w", encoding="utf-8") as f:
    f.write(resultado["text"])

print("✅ 完成！文件已保存为 transcricao.txt")

如何使用：

把一个音频文件（例如 minha_reuniao.mp3）放进 whisper-local 文件夹。
在终端中（确保 (venv) 仍处于激活状态）运行：python transcrever.py
去喝杯咖啡。☕ 对于 30 分钟的音频，预计需要 10 到 25 分钟（取决于你的处理器）。
回来后，打开 transcricao.txt 文件，看看魔法。

8. 第 5 部分——增强版（带时间戳和字幕）

如果你需要知道每句话是在哪一分钟说的（用于字幕、在论文中引用片段，或者查找会议中的某一部分），请使用这个版本：

import whisper
from whisper.utils import get_writer

modelo = whisper.load_model("small")
resultado = modelo.transcribe(
    "minha_reuniao.mp3",
    language="portuguese",
    task="transcribe",
    verbose=True  # 实时显示进度
)

# 纯文本
with open("transcricao.txt", "w", encoding="utf-8") as f:
    f.write(resultado["text"])

# .srt 字幕（非常适合视频）
escritor = get_writer("srt", ".")
escritor(resultado, "minha_reuniao.mp3")

print("✅ 文本和 .srt 字幕已生成！")

额外提示：如果需要网页字幕，可以把 "srt" 换成 "vtt"；如果想要一个每句话一行的表格（带开始时间、结束时间和文本），可以换成 "tsv"。

9. 实用技巧（节省大量时间的部分）

9.1. 选择合适的模型

模型	大小	所需 RAM	CPU 速度	质量
`tiny`	75 MB	约 1 GB	⚡⚡⚡⚡⚡	⭐⭐
`base`	140 MB	约 1 GB	⚡⚡⚡⚡	⭐⭐⭐
`small`	460 MB	约 2 GB	⚡⚡⚡	⭐⭐⭐⭐
`medium`	1.5 GB	约 5 GB	⚡⚡	⭐⭐⭐⭐⭐
`large`	3 GB	约 10 GB	⚡	⭐⭐⭐⭐⭐

我给初学者的真诚建议：选择 small。它在普通电脑上的速度和质量最平衡。如果你发现专有名词或技术术语错得很多，就升级到 medium。

9.2. 一次转写多个文件

import whisper
from pathlib import Path

modelo = whisper.load_model("small")
pasta = Path("./audios")  # 把你的文件放到这个文件夹里

for arquivo in pasta.glob("*"):
    if arquivo.suffix.lower() in [".mp3", ".wav", ".m4a", ".mp4"]:
        print(f"🎙️ 正在转写：{arquivo.name}")
        resultado = modelo.transcribe(str(arquivo), language="portuguese")
        saida = arquivo.with_suffix(".txt")
        saida.write_text(resultado["text"], encoding="utf-8")

print("✅ 所有文件都已转写！")

9.3. 将其他语言的音频翻译成葡萄牙语

resultado = modelo.transcribe("palestra_ingles.mp3", task="translate")

它会把英文音频翻译成葡萄牙语。对经常接触外文内容的人来说非常有用。

9.4. 强制转写更好地识别特定术语

resultado = modelo.transcribe(
    "entrevista.mp3",
    language="portuguese",
    initial_prompt="与 Dr. Almeida 关于 LGPD、COAF 和 compliance 的访谈。"
)

initial_prompt 就像“上下文”——Whisper 会借助它更好地理解内容，减少专有名词和专业术语的错误。

10. 常见问题（以及如何解决）

❌ “ModuleNotFoundError: No module named 'whisper'”
你大概率是在运行前忘记激活 (venv) 了。回去把它激活。

❌ “ffmpeg not found”
说明 ffmpeg 没装好，或者没有加入 PATH。请按照第 3 部分重新安装。

❌ 进程因为内存错误崩溃
试试更小的模型（tiny 或 base），或者在转写时关闭浏览器、Spotify 和其他占内存的大程序。

❌ 转写质量不好

检查音频是否有太多背景噪音。Whisper 很神，但糟糕的音频还是会变成糟糕的文本。
试试更大的模型（small → medium）。
使用带有你所在领域关键词的 initial_prompt 技巧。

❌ 太慢了

很长的音频（超过 1 小时）在 CPU 上处理几个小时也是正常的。
如果你有很多文件，可以让电脑晚上开着继续处理。
如果这已经成为你工作中的持续问题，也许值得投资更强大的方案（下面会讲到 👇）。

11. 当“自己动手”开始拖后腿时怎么办？

说实话：本地 Whisper 很棒，但它并不总是日常工作的最佳选择。在你接下来一周都在配置这些东西之前，先问问自己：

📦 你每周转写超过 10 小时音频吗？ 那可能已经到了该使用自动化流程的时候了（输入文件夹 → 转写 → 最终表格或文档自动生成）。
👥 你或你的团队是否把大量时间浪费在重复任务上（重命名文件、按采访对象拆分转写、生成摘要、排版）？
🔒 音频是否很敏感（客户、患者、法律案件），并且你需要确保没有任何内容离开你的电脑？
📊 你是否需要把转写结果 集成到其他工具中（Google 表格、Notion、CRM、起诉书生成器等）？

如果你对以上至少一个问题回答的是是，那也许就不该继续手工处理了。

这正是我们介入的地方。

👋 认识一下 Vem pra Descomplica

我们是一支把技术难题从你面前移开的团队，让你能回到工作中真正重要的事情上。我们帮助个人和企业：

🛠️ 在你的电脑上搭建本地转写环境（没错，我们会通过视频通话帮你安装和配置好一切，你完全不用学 Python）。
⚙️ 创建自动化流程，把音频自动转换成文字、摘要、表格、会议纪要、视频字幕。
🔐 为处理敏感数据的人提供100% 本地化方案（法律、医疗、学术研究）。
🧩 根据你已经在用的工具进行定制集成（Google Drive、Notion、ClickUp、表格、电子邮件等）。
🧪 为想在投资前测试转写 AI 的公司提供POC 和概念验证。

你不需要变成程序员才能让人工智能为你所用。你只需要有人帮你把它变简单。

💬 联系我们

第一次沟通免费且无义务。我们会一起查看你的情况，并诚实告诉你，是你自己就能解决，还是值得我们为你打造一个定制方案。

我想和 Descomplica 聊聊 →

12. 总结一下（给只想要速查版的人）

安装 Python 3.9+（别忘了在 Windows 上勾选“Add to PATH”）。
创建一个文件夹，在里面打开终端，然后运行 python -m venv venv。
激活环境（Windows 上用 .\venv\Scripts\Activate.ps1，Mac/Linux 上用 source venv/bin/activate）。
运行 pip install openai-whisper 并安装 ffmpeg。
复制第 4 部分的脚本，修改音频文件名，然后运行 python transcrever.py。
打开 transcricao.txt，庆祝一下。🎉

好了。你刚刚已经在自己的机器上 100% 本地运行 AI 完成了音频转写，不用付费，不用把任何内容上传云端，也没有时间限制。若有一天这成为你工作中的瓶颈——你已经知道该找谁了。😉