Si transcribes audios, entrevistas, reuniones, podcasts o clases y alguna vez te has preguntado "¿hay una forma más simple y barata de hacer esto?", la respuesta es sí. Y lo mejor: puedes hacerlo en tu propio portátil, sin enviar ningún archivo a la nube.
1. Para quién es esta guía
Eres periodista, investigador(a), profesor(a), abogado(a), asistente administrativo, psicólogo(a), productor(a) de contenido, estudiante de posgrado… en fin, trabajas con muchas horas de audio al mes, pero no eres programador(a). Quizá incluso intentaste usar herramientas en línea y descubriste que:
- Tienen límite de tamaño de archivo (y esa reunión de 2 h no cabe).
- Cobran por minuto transcrito (y al final del mes la factura duele).
- No garantizan privacidad (el audio de tu cliente va a un servidor de terceros).
- O simplemente se cuelgan a mitad del archivo.
Este artículo es para ti. Te voy a mostrar, paso a paso, cómo instalar y usar Whisper de OpenAI directamente en tu computadora, aunque no tenga una buena tarjeta de video, aunque nunca hayas abierto la terminal en tu vida.
2. Qué es Whisper (en 30 segundos, sin jerga)
Whisper es un modelo de inteligencia artificial creado por OpenAI (los mismos de ChatGPT), que sirve para escuchar audios y transformarlos en texto. Entiende muy bien el español —acentos, modismos, términos técnicos— y funciona sin conexión, es decir, después de instalado, ya no necesita internet para transcribir.
Es gratuito y de código abierto. No pagas nada por su uso, no hay límite de minutos y nadie revisa tus archivos.
Hay varias formas de usar Whisper. Aquí vamos a usar la versión openai-whisper en Python, que es la más estable y la más fácil de automatizar.
3. Lo que vas a necesitar (y probablemente ya tienes)
| Elemento | Qué es | Mínimo aceptable |
|---|---|---|
| Computadora | Windows 10/11, macOS 11+ o Linux | Cualquiera de los últimos 6 años |
| Memoria RAM | La "memoria de corto plazo" de tu PC | 8 GB (recomendado 16 GB) |
| Espacio en disco | Donde vivirá Whisper | 5 GB libres |
| Procesador | El "cerebro" de la PC | Intel i5 de 8.ª generación / Ryzen 5 2000+ o Apple M1+ |
| Tarjeta de video (GPU) | Acelera el proceso — opcional | No se necesita |
| Conexión a internet | Solo para instalar (una sola vez) | Banda común |
| Python | El lenguaje que vamos a usar | Versión 3.9 a 3.12 |
¿No tienes GPU? Tranquilo. Whisper funciona 100% en el procesador (CPU). Es más lento que con tarjeta de video, pero funciona igual — solo que te da tiempo de ir a tomar un café mientras procesa archivos muy grandes.
4. Parte 1 — Instalando Python (sin miedo)
Si ya tienes Python instalado, salta a la Parte 2. Si no lo tienes, ven conmigo.
En Windows
- Entra a python.org/downloads.
- Haz clic en el botón grande "Download Python 3.x.x".
- Importante: al ejecutar el instalador, marca la casilla "Add Python to PATH" abajo del todo. Esa es la parte que la mayoría olvida y luego se complica.
- Haz clic en Install Now y listo.
En macOS
Abre la terminal (pulsa Cmd + Espacio, escribe "terminal" y presiona Enter) y pega:
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
brew install python
En Linux (Ubuntu/Debian)
sudo apt update
sudo apt install python3 python3-pip python3-venv
Cómo saber si salió bien
Abre la terminal (en Windows, busca "cmd" o "PowerShell") y escribe:
python --versionSi aparece algo como Python 3.11.5 (o similar), vas por buen camino. ✅
5. Parte 2 — Creando un rincón seguro para el proyecto
Este es un truco que usan los programadores para no mezclar las cosas: creamos una carpeta aislada con todo lo que necesitamos dentro. Así, si algo sale mal, solo hay que borrar la carpeta y empezar de nuevo.
mkdir whisper-local
cd whisper-local
python -m venv venvAhora activa el entorno:
Windows (PowerShell)
.\venv\Scripts\Activate.ps1
Si aparece un error en rojo sobre "ejecución de scripts deshabilitada", abre PowerShell como administrador y ejecuta:
Set-ExecutionPolicy -Scope CurrentUser RemoteSigned. Luego cierra y vuelve a abrir.
Windows (cmd)
venv\Scripts\activate.bat
macOS / Linux
source venv/bin/activateNotarás que aparece (venv) al inicio de la línea. Eso es buena señal: significa que estás "dentro" del rincón.
6. Parte 3 — Instalando Whisper (la parte mágica)
Con el entorno activado, ejecuta:
pip install openai-whisperVerás muchas cosas moviéndose en pantalla: descargas, instalación, pequeñas compilaciones. Es normal. Puede tardar de 2 a 10 minutos, según tu internet.
Después, instala ffmpeg, que es el "decodificador" de audio que Whisper usa por debajo:
Windows (con Chocolatey instalado)
choco install ffmpegSin Chocolatey: descárgalo en gyan.dev/ffmpeg/builds, extráelo y añade la carpeta bin al PATH de Windows.
macOS
brew install ffmpeg
Linux (Ubuntu/Debian)
sudo apt install ffmpeg
7. Parte 4 — Tu primera transcripción
Crea un archivo llamado transcribir.py dentro de la carpeta whisper-local (puedes usar el Bloc de notas, VS Code o lo que prefieras) y pega esto:
import whisper
# Carga el modelo. La primera vez, lo descarga de internet (unos 150 MB).
# Opciones: tiny | base | small | medium | large
# tiny y base = más rápidos, menor calidad
# small y medium = equilibrio ideal para CPU
# large = mejor calidad, pero exige una máquina buena
modelo = whisper.load_model("small")
# Pon aquí la ruta de tu archivo (mp3, m4a, wav, mp4, etc.)
archivo = "mi_reunion.mp3"
# La magia ocurre aquí
resultado = modelo.transcribe(archivo, language="spanish")
# Guarda en un archivo de texto
with open("transcripcion.txt", "w", encoding="utf-8") as f:
f.write(resultado["text"])
print("✅ ¡Listo! Archivo guardado como transcripcion.txt")Cómo usarlo:
- Coloca un archivo de audio (por ejemplo:
mi_reunion.mp3) dentro de la carpetawhisper-local. - En la terminal (con
(venv)aún activo), ejecuta:python transcribir.py - Ve a tomar un café. ☕ Para un audio de 30 minutos, espera entre 10 y 25 minutos (depende de tu procesador).
- Cuando vuelvas, abre el archivo
transcripcion.txty mira la magia.
8. Parte 5 — Versión mejorada (con marcas de tiempo y subtítulos)
Si necesitas saber en qué minuto se dijo cada frase (útil para subtitulado, para citar fragmentos en una tesis o para encontrar una parte específica de la reunión), usa esta versión:
import whisper
from whisper.utils import get_writer
modelo = whisper.load_model("small")
resultado = modelo.transcribe(
"mi_reunion.mp3",
language="spanish",
task="transcribe",
verbose=True # muestra el progreso en tiempo real
)
# Texto plano
with open("transcripcion.txt", "w", encoding="utf-8") as f:
f.write(resultado["text"])
# Subtítulo .srt (perfecto para videos)
escritor = get_writer("srt", ".")
escritor(resultado, "mi_reunion.mp3")
print("✅ ¡Texto y subtítulo .srt generados!")Bono: cambia "srt" por "vtt" si necesitas subtítulos para la web, o por "tsv" si quieres una hoja de cálculo con cada frase en una línea (con hora de inicio, fin y texto).
9. Consejos prácticos (la parte que ahorra horas)
9.1. Elegir el modelo correcto
| Modelo | Tamaño | RAM necesaria | Velocidad en CPU | Calidad |
|---|---|---|---|---|
tiny |
75 MB | ~1 GB | ⚡⚡⚡⚡⚡ | ⭐⭐ |
base |
140 MB | ~1 GB | ⚡⚡⚡⚡ | ⭐⭐⭐ |
small |
460 MB | ~2 GB | ⚡⚡⚡ | ⭐⭐⭐⭐ |
medium |
1.5 GB | ~5 GB | ⚡⚡ | ⭐⭐⭐⭐⭐ |
large |
3 GB | ~10 GB | ⚡ | ⭐⭐⭐⭐⭐ |
Mi recomendación honesta para quien empieza: usa small. Es el mejor equilibrio entre velocidad y calidad en máquinas comunes. Si ves que se equivoca mucho con nombres propios o términos técnicos, sube a medium.
9.2. Transcribir varios archivos a la vez
import whisper
from pathlib import Path
modelo = whisper.load_model("small")
pasta = Path("./audios") # coloca tus archivos en esta carpeta
for archivo in pasta.glob("*"):
if archivo.suffix.lower() in [".mp3", ".wav", ".m4a", ".mp4"]:
print(f"🎙️ Transcribiendo: {archivo.name}")
resultado = modelo.transcribe(str(archivo), language="spanish")
saida = archivo.with_suffix(".txt")
saida.write_text(resultado["text"], encoding="utf-8")
print("✅ ¡Todos los archivos fueron transcritos!")
9.3. Traducir audio en otro idioma al español
resultado = modelo.transcribe("charla_ingles.mp3", task="translate")Te entregará el audio en inglés traducido al español. Muy útil para quienes consumen mucho contenido extranjero.
9.4. Forzar la transcripción para que reconozca términos específicos
resultado = modelo.transcribe(
"entrevista.mp3",
language="spanish",
initial_prompt="Entrevista con el Dr. Almeida sobre LGPD, COAF y compliance."
)initial_prompt es como un "contexto" que Whisper usa para entender mejor de qué se trata y equivocarse menos con nombres propios y términos técnicos.
10. Problemas comunes (y cómo resolverlos)
❌ "ModuleNotFoundError: No module named 'whisper'"
Probablemente olvidaste activar (venv) antes de ejecutar. Vuelve atrás y actívalo.
❌ "ffmpeg not found"
ffmpeg no se instaló o no está en el PATH. Reinstala siguiendo la Parte 3.
❌ El proceso se muere con error de memoria
Prueba un modelo más pequeño (tiny o base) o cierra el navegador, Spotify y otros programas pesados mientras transcribes.
❌ La calidad de la transcripción es mala
- Verifica si el audio tiene mucho ruido de fondo. Whisper hace milagros, pero un audio malo produce texto malo.
- Prueba un modelo más grande (
small→medium). - Usa el truco de
initial_promptcon palabras clave de tu contexto.
❌ Está MUY lento
- Los audios largos (más de 1 h) en CPU pueden tardar varias horas. Es normal.
- Si tienes muchos archivos, puedes dejar la PC encendida por la noche procesando.
- Si esto es un problema constante en tu trabajo, quizá valga la pena invertir en una solución más robusta (más sobre eso enseguida 👇).
11. ¿Y cuándo el "hazlo tú mismo" empieza a estorbar?
Mira, voy a ser muy honesto: Whisper local es genial, pero no siempre es la mejor opción para el día a día. Antes de pasar la próxima semana configurándolo todo, pregúntate:
- 📦 ¿Transcribes más de 10 horas de audio por semana? Probablemente ya es momento de tener un flujo automatizado (carpeta de entrada → transcripción → hoja de cálculo o documento final listo).
- 👥 ¿Tú o tu equipo pierden horas en tareas repetitivas (renombrar archivos, separar la transcripción por entrevistado, generar resumen, dar formato)?
- 🔒 ¿Los audios son sensibles (clientes, pacientes, procesos jurídicos) y necesitas garantizar que NADA salga de tu máquina?
- 📊 ¿Necesitas integrar la transcripción con otras herramientas (hoja de cálculo de Google, Notion, CRM, generador de escritos, etc.)?
Si respondiste sí a por lo menos una de esas preguntas, quizá no tenga sentido seguir haciendo todo a mano.
Ahí es exactamente donde entramos nosotros.
👋 Conoce a Vem pra Descomplica
Somos un equipo que saca la parte técnica de tu camino para que vuelvas a hacer lo importante en tu trabajo. Ayudamos a profesionales y empresas a:
- 🛠️ Montar el entorno de transcripción local en tu máquina (sí, instalamos y configuramos todo por ti, en una videollamada, sin que necesites aprender nada de Python).
- ⚙️ Crear flujos automatizados que convierten audio en texto, resumen, hoja de cálculo, acta de reunión, subtítulo de video — automáticamente.
- 🔐 Soluciones 100% locales para quienes trabajan con datos sensibles (ámbito jurídico, salud, investigación académica).
- 🧩 Integraciones a medida con las herramientas que ya usas (Google Drive, Notion, ClickUp, hojas de cálculo, correo electrónico, etc.).
- 🧪 POC y pruebas de concepto para empresas que quieren probar IA de transcripción antes de invertir.
No necesitas convertirte en programador(a) para usar la inteligencia artificial a tu favor. Solo necesitas a alguien que te simplifique esto.
💬 Habla con nosotros
La primera conversación es gratis y sin compromiso. Revisamos tu caso contigo y te decimos, con honestidad, si se puede resolver por tu cuenta o si vale la pena construir una solución personalizada.
12. Resumiendo (para quienes solo quieren el chuletario)
- Instala Python 3.9+ (no olvides marcar "Add to PATH" en Windows).
- Crea una carpeta, abre la terminal dentro de ella y ejecuta
python -m venv venv. - Activa el entorno (
.\venv\Scripts\Activate.ps1en Windows osource venv/bin/activateen Mac/Linux). - Ejecuta
pip install openai-whispere instala ffmpeg. - Copia el script de la Parte 4, cambia el nombre del archivo de audio y ejecuta
python transcribir.py. - Abre
transcripcion.txty celebra. 🎉
Listo. Acabas de transcribir audio con IA funcionando 100% en tu máquina, sin pagar nada, sin enviar nada a la nube, sin límite de tiempo. Y si algún día esto se vuelve un cuello de botella en tu trabajo — ya sabes a quién llamar. 😉