Si transcribes audios, entrevistas, reuniones, podcasts o clases y alguna vez te has preguntado "¿hay una forma más simple y barata de hacer esto?", la respuesta es . Y lo mejor: puedes hacerlo en tu propio portátil, sin enviar ningún archivo a la nube.

1. Para quién es esta guía

Eres periodista, investigador(a), profesor(a), abogado(a), asistente administrativo, psicólogo(a), productor(a) de contenido, estudiante de posgrado… en fin, trabajas con muchas horas de audio al mes, pero no eres programador(a). Quizá incluso intentaste usar herramientas en línea y descubriste que:

  • Tienen límite de tamaño de archivo (y esa reunión de 2 h no cabe).
  • Cobran por minuto transcrito (y al final del mes la factura duele).
  • No garantizan privacidad (el audio de tu cliente va a un servidor de terceros).
  • O simplemente se cuelgan a mitad del archivo.

Este artículo es para ti. Te voy a mostrar, paso a paso, cómo instalar y usar Whisper de OpenAI directamente en tu computadora, aunque no tenga una buena tarjeta de video, aunque nunca hayas abierto la terminal en tu vida.

2. Qué es Whisper (en 30 segundos, sin jerga)

Whisper es un modelo de inteligencia artificial creado por OpenAI (los mismos de ChatGPT), que sirve para escuchar audios y transformarlos en texto. Entiende muy bien el español —acentos, modismos, términos técnicos— y funciona sin conexión, es decir, después de instalado, ya no necesita internet para transcribir.

Es gratuito y de código abierto. No pagas nada por su uso, no hay límite de minutos y nadie revisa tus archivos.

Hay varias formas de usar Whisper. Aquí vamos a usar la versión openai-whisper en Python, que es la más estable y la más fácil de automatizar.

3. Lo que vas a necesitar (y probablemente ya tienes)

Elemento Qué es Mínimo aceptable
Computadora Windows 10/11, macOS 11+ o Linux Cualquiera de los últimos 6 años
Memoria RAM La "memoria de corto plazo" de tu PC 8 GB (recomendado 16 GB)
Espacio en disco Donde vivirá Whisper 5 GB libres
Procesador El "cerebro" de la PC Intel i5 de 8.ª generación / Ryzen 5 2000+ o Apple M1+
Tarjeta de video (GPU) Acelera el proceso — opcional No se necesita
Conexión a internet Solo para instalar (una sola vez) Banda común
Python El lenguaje que vamos a usar Versión 3.9 a 3.12

¿No tienes GPU? Tranquilo. Whisper funciona 100% en el procesador (CPU). Es más lento que con tarjeta de video, pero funciona igual — solo que te da tiempo de ir a tomar un café mientras procesa archivos muy grandes.

4. Parte 1 — Instalando Python (sin miedo)

Si ya tienes Python instalado, salta a la Parte 2. Si no lo tienes, ven conmigo.

En Windows

  1. Entra a python.org/downloads.
  2. Haz clic en el botón grande "Download Python 3.x.x".
  3. Importante: al ejecutar el instalador, marca la casilla "Add Python to PATH" abajo del todo. Esa es la parte que la mayoría olvida y luego se complica.
  4. Haz clic en Install Now y listo.

En macOS

Abre la terminal (pulsa Cmd + Espacio, escribe "terminal" y presiona Enter) y pega:

/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
brew install python

En Linux (Ubuntu/Debian)

sudo apt update
sudo apt install python3 python3-pip python3-venv

Cómo saber si salió bien

Abre la terminal (en Windows, busca "cmd" o "PowerShell") y escribe:

python --version

Si aparece algo como Python 3.11.5 (o similar), vas por buen camino. ✅

5. Parte 2 — Creando un rincón seguro para el proyecto

Este es un truco que usan los programadores para no mezclar las cosas: creamos una carpeta aislada con todo lo que necesitamos dentro. Así, si algo sale mal, solo hay que borrar la carpeta y empezar de nuevo.

mkdir whisper-local
cd whisper-local
python -m venv venv

Ahora activa el entorno:

Windows (PowerShell)

.\venv\Scripts\Activate.ps1

Si aparece un error en rojo sobre "ejecución de scripts deshabilitada", abre PowerShell como administrador y ejecuta: Set-ExecutionPolicy -Scope CurrentUser RemoteSigned. Luego cierra y vuelve a abrir.

Windows (cmd)

venv\Scripts\activate.bat

macOS / Linux

source venv/bin/activate

Notarás que aparece (venv) al inicio de la línea. Eso es buena señal: significa que estás "dentro" del rincón.

6. Parte 3 — Instalando Whisper (la parte mágica)

Con el entorno activado, ejecuta:

pip install openai-whisper

Verás muchas cosas moviéndose en pantalla: descargas, instalación, pequeñas compilaciones. Es normal. Puede tardar de 2 a 10 minutos, según tu internet.

Después, instala ffmpeg, que es el "decodificador" de audio que Whisper usa por debajo:

Windows (con Chocolatey instalado)

choco install ffmpeg

Sin Chocolatey: descárgalo en gyan.dev/ffmpeg/builds, extráelo y añade la carpeta bin al PATH de Windows.

macOS

brew install ffmpeg

Linux (Ubuntu/Debian)

sudo apt install ffmpeg

7. Parte 4 — Tu primera transcripción

Crea un archivo llamado transcribir.py dentro de la carpeta whisper-local (puedes usar el Bloc de notas, VS Code o lo que prefieras) y pega esto:

import whisper

# Carga el modelo. La primera vez, lo descarga de internet (unos 150 MB).
# Opciones: tiny | base | small | medium | large
# tiny y base = más rápidos, menor calidad
# small y medium = equilibrio ideal para CPU
# large = mejor calidad, pero exige una máquina buena
modelo = whisper.load_model("small")

# Pon aquí la ruta de tu archivo (mp3, m4a, wav, mp4, etc.)
archivo = "mi_reunion.mp3"

# La magia ocurre aquí
resultado = modelo.transcribe(archivo, language="spanish")

# Guarda en un archivo de texto
with open("transcripcion.txt", "w", encoding="utf-8") as f:
    f.write(resultado["text"])

print("✅ ¡Listo! Archivo guardado como transcripcion.txt")

Cómo usarlo:

  1. Coloca un archivo de audio (por ejemplo: mi_reunion.mp3) dentro de la carpeta whisper-local.
  2. En la terminal (con (venv) aún activo), ejecuta: python transcribir.py
  3. Ve a tomar un café. ☕ Para un audio de 30 minutos, espera entre 10 y 25 minutos (depende de tu procesador).
  4. Cuando vuelvas, abre el archivo transcripcion.txt y mira la magia.

8. Parte 5 — Versión mejorada (con marcas de tiempo y subtítulos)

Si necesitas saber en qué minuto se dijo cada frase (útil para subtitulado, para citar fragmentos en una tesis o para encontrar una parte específica de la reunión), usa esta versión:

import whisper
from whisper.utils import get_writer

modelo = whisper.load_model("small")
resultado = modelo.transcribe(
    "mi_reunion.mp3",
    language="spanish",
    task="transcribe",
    verbose=True  # muestra el progreso en tiempo real
)

# Texto plano
with open("transcripcion.txt", "w", encoding="utf-8") as f:
    f.write(resultado["text"])

# Subtítulo .srt (perfecto para videos)
escritor = get_writer("srt", ".")
escritor(resultado, "mi_reunion.mp3")

print("✅ ¡Texto y subtítulo .srt generados!")

Bono: cambia "srt" por "vtt" si necesitas subtítulos para la web, o por "tsv" si quieres una hoja de cálculo con cada frase en una línea (con hora de inicio, fin y texto).

9. Consejos prácticos (la parte que ahorra horas)

9.1. Elegir el modelo correcto

Modelo Tamaño RAM necesaria Velocidad en CPU Calidad
tiny 75 MB ~1 GB ⚡⚡⚡⚡⚡ ⭐⭐
base 140 MB ~1 GB ⚡⚡⚡⚡ ⭐⭐⭐
small 460 MB ~2 GB ⚡⚡⚡ ⭐⭐⭐⭐
medium 1.5 GB ~5 GB ⚡⚡ ⭐⭐⭐⭐⭐
large 3 GB ~10 GB ⭐⭐⭐⭐⭐

Mi recomendación honesta para quien empieza: usa small. Es el mejor equilibrio entre velocidad y calidad en máquinas comunes. Si ves que se equivoca mucho con nombres propios o términos técnicos, sube a medium.

9.2. Transcribir varios archivos a la vez

import whisper
from pathlib import Path

modelo = whisper.load_model("small")
pasta = Path("./audios")  # coloca tus archivos en esta carpeta

for archivo in pasta.glob("*"):
    if archivo.suffix.lower() in [".mp3", ".wav", ".m4a", ".mp4"]:
        print(f"🎙️ Transcribiendo: {archivo.name}")
        resultado = modelo.transcribe(str(archivo), language="spanish")
        saida = archivo.with_suffix(".txt")
        saida.write_text(resultado["text"], encoding="utf-8")

print("✅ ¡Todos los archivos fueron transcritos!")

9.3. Traducir audio en otro idioma al español

resultado = modelo.transcribe("charla_ingles.mp3", task="translate")

Te entregará el audio en inglés traducido al español. Muy útil para quienes consumen mucho contenido extranjero.

9.4. Forzar la transcripción para que reconozca términos específicos

resultado = modelo.transcribe(
    "entrevista.mp3",
    language="spanish",
    initial_prompt="Entrevista con el Dr. Almeida sobre LGPD, COAF y compliance."
)

initial_prompt es como un "contexto" que Whisper usa para entender mejor de qué se trata y equivocarse menos con nombres propios y términos técnicos.

10. Problemas comunes (y cómo resolverlos)

❌ "ModuleNotFoundError: No module named 'whisper'"
Probablemente olvidaste activar (venv) antes de ejecutar. Vuelve atrás y actívalo.

❌ "ffmpeg not found"
ffmpeg no se instaló o no está en el PATH. Reinstala siguiendo la Parte 3.

❌ El proceso se muere con error de memoria
Prueba un modelo más pequeño (tiny o base) o cierra el navegador, Spotify y otros programas pesados mientras transcribes.

❌ La calidad de la transcripción es mala

  • Verifica si el audio tiene mucho ruido de fondo. Whisper hace milagros, pero un audio malo produce texto malo.
  • Prueba un modelo más grande (smallmedium).
  • Usa el truco de initial_prompt con palabras clave de tu contexto.

❌ Está MUY lento

  • Los audios largos (más de 1 h) en CPU pueden tardar varias horas. Es normal.
  • Si tienes muchos archivos, puedes dejar la PC encendida por la noche procesando.
  • Si esto es un problema constante en tu trabajo, quizá valga la pena invertir en una solución más robusta (más sobre eso enseguida 👇).

11. ¿Y cuándo el "hazlo tú mismo" empieza a estorbar?

Mira, voy a ser muy honesto: Whisper local es genial, pero no siempre es la mejor opción para el día a día. Antes de pasar la próxima semana configurándolo todo, pregúntate:

  • 📦 ¿Transcribes más de 10 horas de audio por semana? Probablemente ya es momento de tener un flujo automatizado (carpeta de entrada → transcripción → hoja de cálculo o documento final listo).
  • 👥 ¿Tú o tu equipo pierden horas en tareas repetitivas (renombrar archivos, separar la transcripción por entrevistado, generar resumen, dar formato)?
  • 🔒 ¿Los audios son sensibles (clientes, pacientes, procesos jurídicos) y necesitas garantizar que NADA salga de tu máquina?
  • 📊 ¿Necesitas integrar la transcripción con otras herramientas (hoja de cálculo de Google, Notion, CRM, generador de escritos, etc.)?

Si respondiste a por lo menos una de esas preguntas, quizá no tenga sentido seguir haciendo todo a mano.

Ahí es exactamente donde entramos nosotros.

👋 Conoce a Vem pra Descomplica

Somos un equipo que saca la parte técnica de tu camino para que vuelvas a hacer lo importante en tu trabajo. Ayudamos a profesionales y empresas a:

  • 🛠️ Montar el entorno de transcripción local en tu máquina (sí, instalamos y configuramos todo por ti, en una videollamada, sin que necesites aprender nada de Python).
  • ⚙️ Crear flujos automatizados que convierten audio en texto, resumen, hoja de cálculo, acta de reunión, subtítulo de video — automáticamente.
  • 🔐 Soluciones 100% locales para quienes trabajan con datos sensibles (ámbito jurídico, salud, investigación académica).
  • 🧩 Integraciones a medida con las herramientas que ya usas (Google Drive, Notion, ClickUp, hojas de cálculo, correo electrónico, etc.).
  • 🧪 POC y pruebas de concepto para empresas que quieren probar IA de transcripción antes de invertir.

No necesitas convertirte en programador(a) para usar la inteligencia artificial a tu favor. Solo necesitas a alguien que te simplifique esto.

💬 Habla con nosotros

La primera conversación es gratis y sin compromiso. Revisamos tu caso contigo y te decimos, con honestidad, si se puede resolver por tu cuenta o si vale la pena construir una solución personalizada.

Quiero hablar con Descomplica →

12. Resumiendo (para quienes solo quieren el chuletario)

  1. Instala Python 3.9+ (no olvides marcar "Add to PATH" en Windows).
  2. Crea una carpeta, abre la terminal dentro de ella y ejecuta python -m venv venv.
  3. Activa el entorno (.\venv\Scripts\Activate.ps1 en Windows o source venv/bin/activate en Mac/Linux).
  4. Ejecuta pip install openai-whisper e instala ffmpeg.
  5. Copia el script de la Parte 4, cambia el nombre del archivo de audio y ejecuta python transcribir.py.
  6. Abre transcripcion.txt y celebra. 🎉

Listo. Acabas de transcribir audio con IA funcionando 100% en tu máquina, sin pagar nada, sin enviar nada a la nube, sin límite de tiempo. Y si algún día esto se vuelve un cuello de botella en tu trabajo — ya sabes a quién llamar. 😉