Como usar Whisper localmente para transcrever áudio com IA, sem GPU e sem depender da nuvem

Como usar Whisper localmente para transcrever áudio com IA, sem GPU e sem depender da nuvem

Se você transcreve áudios, entrevistas, reuniões, podcasts ou aulas e já se perguntou "tem um jeito mais simples e barato de fazer isso?", a resposta é sim. E o melhor: dá pra rodar no seu próprio notebook, sem mandar arquivo nenhum pra nuvem.

1. Pra quem é esse guia

Você é jornalista, pesquisador(a), professor(a), advogado(a), assistente administrativo, psicólogo(a), produtor(a) de conteúdo, estudante de pós… enfim, você lida com muitas horas de áudio no mês, mas não é programador(a). Talvez tenha até tentado usar ferramentas online e descobriu que:

  • Têm limite de tamanho de arquivo (e aquela reunião de 2h não cabe).
  • Cobram por minuto transcrito (e no fim do mês a fatura dói).
  • Não garantem privacidade (o áudio do seu cliente vai pra servidor de terceiros).
  • Ou simplesmente travam no meio do arquivo.

Esse artigo é pra você. Vou te mostrar, passo a passo, como instalar e usar o Whisper da OpenAI direto no seu computador, mesmo que ele não tenha placa de vídeo boa, mesmo que você nunca tenha aberto o terminal na vida.

2. O que é o Whisper (em 30 segundos, sem jargão)

O Whisper é um modelo de inteligência artificial criado pela OpenAI (os mesmos do ChatGPT), que serve para ouvir áudios e transformá-los em texto. Ele entende português muito bem — sotaques, gírias, termos técnicos — e funciona offline, ou seja, depois de instalado, não precisa mais de internet para transcrever.

Ele é gratuito e open source (código aberto). Você não paga nada por uso, não tem limite de minutos e ninguém fica olhando seus arquivos.

Existem várias formas de usar o Whisper. Aqui a gente vai usar a versão openai-whisper em Python, que é a mais estável e a mais fácil de automatizar.

3. O que você vai precisar (e provavelmente já tem)

Item O que é Mínimo aceitável
Computador Windows 10/11, macOS 11+ ou Linux Qualquer um dos últimos 6 anos
Memória RAM O "curto prazo" do seu PC 8 GB (recomendado 16 GB)
Espaço em disco Onde o Whisper vai morar 5 GB livres
Processador O "cérebro" do PC Intel i5 de 8ª geração / Ryzen 5 2000+ ou Apple M1+
Placa de vídeo (GPU) Acelera o processo — opcional Não precisa
Conexão com internet Só pra instalar (uma única vez) Banda comum
Python A linguagem que vamos usar Versão 3.9 a 3.12

Não tem GPU? Relaxa. O Whisper roda 100% no processador (CPU). É mais devagar que com placa de vídeo, mas funciona igualzinho — só dá pra ir tomar um café enquanto ele processa arquivos bem grandes.

4. Parte 1 — Instalando o Python (sem medo)

Se você já tem o Python instalado, pule pra Parte 2. Se não tem, vem comigo.

No Windows

  1. Acesse python.org/downloads.
  2. Clique no botão grande "Download Python 3.x.x".
  3. Importante: ao rodar o instalador, marque a caixinha "Add Python to PATH" lá embaixo. Essa é a parte que a maioria esquece e depois fica quebrando a cabeça.
  4. Clique em Install Now e pronto.

No macOS

Abra o terminal (aperte Cmd + Espaço, digite "terminal" e dê Enter) e cole:

/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
brew install python

No Linux (Ubuntu/Debian)

sudo apt update
sudo apt install python3 python3-pip python3-venv

Como saber se deu certo

Abra o terminal (no Windows, procure por "cmd" ou "PowerShell") e digite:

python --version

Se aparecer algo como Python 3.11.5 (ou similar), tá no caminho certo. ✅

5. Parte 2 — Criando um cantinho seguro pro projeto

Esse é um truque que programadores usam pra não misturar as coisas: a gente cria uma pasta isolada com tudo o que precisa dentro. Assim, se algo der errado, é só apagar a pasta e recomeçar.

mkdir whisper-local
cd whisper-local
python -m venv venv

Agora ative o ambiente:

Windows (PowerShell)

.\venv\Scripts\Activate.ps1

Se aparecer um erro em vermelho sobre "execução de scripts desabilitada", abra o PowerShell como administrador e rode: Set-ExecutionPolicy -Scope CurrentUser RemoteSigned. Depois feche e abra de novo.

Windows (cmd)

venv\Scripts\activate.bat

macOS / Linux

source venv/bin/activate

Você vai notar que aparece (venv) no início da linha. Isso é bom sinal — significa que você está "dentro" do cantinho.

6. Parte 3 — Instalando o Whisper (a parte mágica)

Com o ambiente ativado, rode:

pip install openai-whisper

Vai aparecer muita coisa rolando na tela — downloads, instalação, compilaçõezinhas. É normal. Pode demorar de 2 a 10 minutos dependendo da sua internet.

Em seguida, instale o ffmpeg, que é o "decodificador" de áudio que o Whisper usa por baixo dos panos:

Windows (com Chocolatey instalado)

choco install ffmpeg

Sem Chocolatey: baixe em gyan.dev/ffmpeg/builds, extraia e adicione a pasta bin ao PATH do Windows.

macOS

brew install ffmpeg

Linux (Ubuntu/Debian)

sudo apt install ffmpeg

7. Parte 4 — Sua primeira transcrição

Crie um arquivo chamado transcrever.py dentro da pasta whisper-local (pode usar o Bloco de Notas, o VS Code, ou o que preferir) e cole isto:

import whisper

# Carrega o modelo. Na primeira vez, ele baixa da internet (uns 150 MB).
# Opções: tiny | base | small | medium | large
# tiny e base = mais rápidos, qualidade menor
# small e medium = equilíbrio ideal pra CPU
# large = melhor qualidade, mas exige máquina boa
modelo = whisper.load_model("small")

# Coloque aqui o caminho do seu arquivo (mp3, m4a, wav, mp4, etc.)
arquivo = "minha_reuniao.mp3"

# A mágica acontece aqui
resultado = modelo.transcribe(arquivo, language="portuguese")

# Salva em um arquivo de texto
with open("transcricao.txt", "w", encoding="utf-8") as f:
    f.write(resultado["text"])

print("✅ Pronto! Arquivo salvo como transcricao.txt")

Como usar:

  1. Coloque um arquivo de áudio (ex: minha_reuniao.mp3) dentro da pasta whisper-local.
  2. No terminal (com o (venv) ainda ativo), rode: python transcrever.py
  3. Vá tomar um café. ☕ Para um áudio de 30 minutos, espere entre 10 e 25 minutos (depende do seu processador).
  4. Quando voltar, abra o arquivo transcricao.txt e veja a mágica.

8. Parte 5 — Versão turbinada (com timestamps e legendas)

Se você precisa saber em que minuto cada frase foi dita (útil pra legendagem, pra citar trechos em uma tese, ou pra achar uma parte específica da reunião), use esta versão:

import whisper
from whisper.utils import get_writer

modelo = whisper.load_model("small")
resultado = modelo.transcribe(
    "minha_reuniao.mp3",
    language="portuguese",
    task="transcribe",
    verbose=True  # mostra o progresso em tempo real
)

# Texto puro
with open("transcricao.txt", "w", encoding="utf-8") as f:
    f.write(resultado["text"])

# Legenda .srt (perfeita pra vídeos)
escritor = get_writer("srt", ".")
escritor(resultado, "minha_reuniao.mp3")

print("✅ Texto e legenda .srt gerados!")

Bônus: troque "srt" por "vtt" se precisar de legendas para a web, ou por "tsv" se quiser uma planilha com cada frase numa linha (com horário de início, fim e texto).

9. Dicas práticas (a parte que economiza horas)

9.1. Escolhendo o modelo certo

Modelo Tamanho RAM necessária Velocidade em CPU Qualidade
tiny 75 MB ~1 GB ⚡⚡⚡⚡⚡ ⭐⭐
base 140 MB ~1 GB ⚡⚡⚡⚡ ⭐⭐⭐
small 460 MB ~2 GB ⚡⚡⚡ ⭐⭐⭐⭐
medium 1.5 GB ~5 GB ⚡⚡ ⭐⭐⭐⭐⭐
large 3 GB ~10 GB ⭐⭐⭐⭐⭐

Minha recomendação honesta pra quem está começando: vá de small. É o melhor equilíbrio entre velocidade e qualidade em máquinas comuns. Se você perceber que está errando muitos nomes próprios ou termos técnicos, suba para medium.

9.2. Transcrevendo vários arquivos de uma vez

import whisper
from pathlib import Path

modelo = whisper.load_model("small")
pasta = Path("./audios")  # coloque seus arquivos nesta pasta

for arquivo in pasta.glob("*"):
    if arquivo.suffix.lower() in [".mp3", ".wav", ".m4a", ".mp4"]:
        print(f"🎙️ Transcrevendo: {arquivo.name}")
        resultado = modelo.transcribe(str(arquivo), language="portuguese")
        saida = arquivo.with_suffix(".txt")
        saida.write_text(resultado["text"], encoding="utf-8")

print("✅ Todos os arquivos foram transcritos!")

9.3. Traduzindo áudio em outra língua pra português

resultado = modelo.transcribe("palestra_ingles.mp3", task="translate")

Ele vai te entregar o áudio em inglês traduzido para português. Bem útil pra quem consome muito conteúdo gringo.

9.4. Forçando a transcrição a reconhecer termos específicos

resultado = modelo.transcribe(
    "entrevista.mp3",
    language="portuguese",
    initial_prompt="Entrevista com Dr. Almeida sobre LGPD, COAF e compliance."
)

O initial_prompt é tipo um "contexto" — o Whisper usa pra entender melhor do que se trata e errar menos nomes próprios e termos técnicos.

10. Problemas comuns (e como resolver)

❌ "ModuleNotFoundError: No module named 'whisper'"
Você provavelmente esqueceu de ativar o (venv) antes de rodar. Volte lá e ative.

❌ "ffmpeg not found"
O ffmpeg não foi instalado ou não está no PATH. Reinstale seguindo a Parte 3.

❌ O processo morre com erro de memória
Tente um modelo menor (tiny ou base) ou feche o navegador, Spotify e outros programas pesados enquanto transcreve.

❌ A qualidade da transcrição tá ruim

  • Verifique se o áudio não tem muito ruído de fundo. Whisper faz milagre, mas áudio ruim vira texto ruim.
  • Tente um modelo maior (smallmedium).
  • Use o truque do initial_prompt com palavras-chave do seu contexto.

❌ Tá MUITO demorado

  • Áudios longos (acima de 1h) em CPU podem levar várias horas mesmo. É normal.
  • Se você tem muitos arquivos, pode deixar o PC ligado de noite processando.
  • Se isso é um problema constante no seu trabalho, talvez valha a pena investir numa solução mais robusta (mais sobre isso já já 👇).

11. E quando o "faça você mesmo" começa a atrapalhar?

Olha, vou ser bem honesto: o Whisper local é ótimo, mas nem sempre é a melhor escolha pro dia a dia. Antes de você passar a próxima semana configurando tudo, se pergunde:

  • 📦 Você transcreve mais de 10 horas de áudio por semana? Provavelmente já tá na hora de ter um pipeline automatizado (pasta de entrada → transcrição → planilha ou documento final pronto).
  • 👥 Você ou sua equipe perdem horas em tarefas repetitivas (renomear arquivos, quebrar transcrição por entrevistado, gerar resumo, formatar)?
  • 🔒 Os áudios são sensíveis (clientes, pacientes, processos jurídicos) e você precisa garantir que NADA sai da sua máquina?
  • 📊 Você precisa integrar a transcrição com outras ferramentas (planilha do Google, Notion, CRM, gerador de petições, etc.)?

Se você respondeu sim pra pelo menos uma dessas perguntas, talvez não faça sentido continuar fazendo tudo na mão.

É exatamente aí que a gente entra.

👋 Conheça a Vem pra Descomplica

A gente é um time que tira a parte técnica do seu caminho pra você voltar a fazer o que importa no seu trabalho. Ajudamos profissionais e empresas a:

  • 🛠️ Montar o ambiente de transcrição local na sua máquina (sim, a gente instala e configura tudo pra você, em chamada de vídeo, sem você precisar aprender nada de Python).
  • ⚙️ Criar fluxos automatizados que transformam áudio em texto, resumo, planilha, ata de reunião, legenda de vídeo — automaticamente.
  • 🔐 Soluções 100% locais pra quem lida com dados sensíveis (jurídico, saúde, pesquisa acadêmica).
  • 🧩 Integrações sob medida com as ferramentas que você já usa (Google Drive, Notion, ClickUp, planilhas, e-mail, etc.).
  • 🧪 POC e provas de conceito pra empresas que querem testar IA de transcrição antes de investir.

Você não precisa virar programador(a) pra usar inteligência artificial a seu favor. Você só precisa de alguém que descomplica isso pra você.

💬 Fale com a gente

A primeira conversa é de graça e sem compromisso. A gente olha junto o seu caso e te diz, com honestidade, se dá pra resolver sozinho(a) ou se vale a pena a gente construir uma solução personalizada.

Quero conversar com a Descomplica →

12. Resumindo (pra quem só quer a cola)

  1. Instale o Python 3.9+ (não esqueça de marcar "Add to PATH" no Windows).
  2. Crie uma pasta, abra o terminal dentro dela e rode python -m venv venv.
  3. Ative o ambiente (.\venv\Scripts\Activate.ps1 no Windows ou source venv/bin/activate no Mac/Linux).
  4. Rode pip install openai-whisper e instale o ffmpeg.
  5. Copie o script da Parte 4, troque o nome do arquivo de áudio, e rode python transcrever.py.
  6. Abra o transcricao.txt e celebre. 🎉

Pronto. Você acabou de transcrever áudio com IA rodando 100% na sua máquina, sem pagar nada, sem mandar nada pra nuvem, sem limite de tempo. E se um dia isso virar um gargalo no seu trabalho — você já sabe quem chamar. 😉

0 curtidas
0 compartilhamentos
Gostou do conteúdo?

Entre em contato conosco e descubra como podemos ajudar sua empresa a crescer.

0/2000