Todos los artículos

Transcripción de audio: aplicaciones y herramientas

·18 min de lectura

Revisión completa de aplicaciones y herramientas para la transcripción de voz: GUI de escritorio basadas en Whisper, soluciones self-hosted, editores de video con transcripción integrada, servicios en el navegador y aplicaciones móviles para iOS y Android. Todas las opciones — desde open-source completamente gratuitas hasta de pago con funcionalidades avanzadas.


Aplicaciones de escritorio: Whisper con rostro humano

Para quienes necesitan una GUI simple sin línea de comandos, ha crecido todo un ecosistema de aplicaciones de escritorio basadas en Whisper. Todas funcionan offline, los datos no salen del ordenador — más información en «Transcripción local vs. en la nube».

Handy (handy.computer) — aplicación gratuita open-source para macOS/Windows/Linux con un enfoque único: dictado push-to-talk directamente en cualquier campo de texto. Pulsas la tecla rápida → hablas → sueltas → el texto se inserta en la ventana activa. Ideal para sustituir el teclado al escribir, chatear y tomar notas. Construida sobre Whisper, completamente offline y privada. Patrocinada por Wordcab y Bolt AI.

Vibe (thewh1teagle.github.io/vibe) — una de las mejores soluciones gratuitas open-source, más de 5 000 estrellas en GitHub. Multiplataforma (Windows, macOS, Linux), construida con Tauri + whisper.cpp. Soporta aceleración GPU (NVIDIA, AMD, Apple Silicon vía Vulkan/CoreML), más de 90 idiomas, diarización de hablantes, exportación a SRT/VTT/TXT/DOCX/PDF/JSON, transcripción de enlaces de YouTube vía yt-dlp, grabación con micrófono, resumen vía Claude/Ollama, API HTTP con documentación Swagger e incluso modo CLI. El cliente de escritorio gratuito más completo actualmente. Instalador ~24 MB, después de la instalación ~87 MB + modelo.

Buzz (buzzcaptions.com) — GUI gratuita open-source para Whisper. Multiplataforma, soporta varios backends (whisper.cpp, faster-whisper), separación de hablantes, exportación de subtítulos. Más minimalista que Vibe, pero estable y probado.

MacWhisper / Whisper Transcription (App Store, macupdate.com) — aplicación nativa para macOS. La versión gratuita incluye los modelos Base y Small. Suscripción Pro: $4.99/sem, $8.99/mes, $29.99/año, o $79.99 para siempre. Pro desbloquea los modelos Medium y Large, procesamiento por lotes, grabación de audio del sistema (llamadas de Zoom, podcasts), separación de hablantes, Reader Mode, integración con ChatGPT para resumen. La interfaz Whisper más pulida para Mac. Valoración ~4.0 en MacUpdate.

Whisper Notes (whispernotes.app) — $6.99 pago único para iOS + Mac. Más de 60 000 usuarios. Característica clave — dictado a nivel de sistema: mantén pulsado Fn en cualquier aplicación → habla → suelta → el texto se inserta. Importación de archivos de audio/video con resultado en streaming. Completamente offline, usa Whisper Large V3 Turbo en Apple Silicon.

WhisperDesktop (github.com/Const-me/Whisper) — aplicación gratuita para Windows con aceleración GPU mediante DirectCompute/GPGPU. Significativamente más rápida que el Whisper original: 3:24 min de audio en 19 segundos con GeForce 1080Ti (frente a 45 seg con PyTorch+CUDA). Transcripción de archivos + grabación con micrófono en tiempo real. Modelo recomendado: ggml-medium.bin (~1.42 GB).

WhisperUI (Microsoft Store) — aplicación gratuita para Windows. Aceleración GPU mediante CPU, OpenCL, NVIDIA CUDA 11/12. Completamente offline, exportación de subtítulos en SRT/VTT, procesamiento por lotes.

Aiko (~$5.99, iOS/Mac) — la aplicación Whisper más simple para Apple. Arrastra y suelta un archivo de audio → texto. 100% en el dispositivo, ideal para quienes quieren transcripción con un solo botón sin configuraciones.

Whisper Transcription (iOS App Store, freemium) — aplicación móvil con modo en el dispositivo y en la nube. La extensión Share permite transcribir mensajes de voz de iMessage, WhatsApp, Voice Memos. Requiere iPhone 13+ para el modo en el dispositivo. Resumen con IA, chat con la transcripción. Valoración 4.6+.


Soluciones self-hosted: para tu propio servidor

Para quienes quieren desplegar un servicio completo de transcripción en su propio servidor o red local.

Whishper (github.com/pluja/whishper) — plataforma self-hosted completa con interfaz web. Incluye faster-whisper para transcripción, LibreTranslate/Argos Translate para traducción de subtítulos (más de 60 idiomas), editor de subtítulos integrado, exportación a JSON/TXT/VTT/SRT. Se despliega mediante Docker Compose (5 contenedores: API, backend, frontend, traducción, MongoDB). 100% offline después de la instalación. Excelente opción para equipos que necesitan un servicio privado sin nube.

WhisperLive (github.com/collabora/WhisperLive, Collabora) — solución open-source para transcripción en tiempo real. Servidor WebSocket: conectas el micrófono o un archivo → recibes texto con latencia mínima. Soporta backends faster-whisper, TensorRT y OpenVINO. Cliente Python y demo JS. Adecuado para transcripción en vivo de reuniones y conferencias.

WhisperTranscribe (whispertranscribe.com) — servicio en la nube con aplicación de escritorio para Windows. Prueba gratuita de 60 minutos sin tarjeta de crédito. Usa Whisper + AssemblyAI. Además de la transcripción: más de 57 tipos de contenido a partir de una sola grabación (publicaciones, resúmenes, materiales de marketing), entrenamiento de IA al estilo del usuario, transcripción de YouTube/Vimeo por enlace, podcasts de una biblioteca de 2.5 millones. Más de 55 idiomas. Suscripción ~$15/mes.


Editores de video con transcripción integrada

Una categoría aparte — editores de video que pueden transcribir audio como parte del flujo de trabajo.

CapCut (ByteDance/TikTok) — editor de video gratuito con potente función Auto Captions. Soporta más de 100 idiomas. Transcribe voz a subtítulos, permite editar video basándose en el texto (transcript-based editing), traducir subtítulos, crear subtítulos bilingües. Versión web, escritorio (Windows/Mac), aplicaciones móviles. Gratuito. Limitación: orientado a subtítulos, no a documentos de transcripción completos.

Descript — potente editor de audio/video con transcript-based editing (eliminas una palabra del texto → se corta del video). No soporta ruso — solo caracteres latinos. Lo menciono para completar el panorama.

DaVinci Resolve (Blackmagic Design) — editor de video profesional con transcripción integrada mediante Whisper. Soporta varios idiomas, pero la calidad es inferior a la de herramientas especializadas. Versión gratuita disponible. Transcripción en la línea de tiempo para text-based editing.

Subtitle Edit (nikse.dk) — editor de subtítulos gratuito open-source para Windows (parcialmente Linux) con transcripción integrada mediante Whisper. Soporta más de 7 motores Whisper (OpenAI Whisper, Purfview's Faster-Whisper-XXL, CPP, CPP cuBLAS, Const-me, CTranslate2, stable-ts, WhisperX), procesamiento por lotes, traducción automática, más de 100 idiomas. La herramienta gratuita más potente para crear subtítulos a partir de audio. Con RTX A6000 — 2 horas en unos pocos minutos.

Subper / SubtitleWhisper (subtitlewhisper.com) — generador de subtítulos online basado en Whisper + Silero VAD. Editor de subtítulos online. Plan gratuito limitado, de pago desde $9.99/mes. Integración con GPT para puntuación y párrafos.


Extensiones de navegador y herramientas online

Transkriptor — aplicación web + extensión para Chrome/Firefox + iOS/Android. Soporta múltiples idiomas, diarización automática, exportación a TXT/SRT/DOCX. Prueba gratuita, luego $9.99–30/mes. Afirma 99% de precisión.

TurboScribe (turboscribe.ai) — servicio web con 3 transcripciones gratuitas al día (hasta 30 min cada una). Planes de pago desde ~$10/mes. Whisper por debajo.

Wonderscribe — servicio web completamente gratuito, pero con mayor porcentaje de errores (~16% WER). Para borradores de transcripción.

HuggingFace Spaces (huggingface.co/spaces/openai/whisper) — demo gratuita de Whisper por OpenAI. Subes un archivo → recibes texto. Gratuito, pero con limitaciones y colas.


Aplicaciones móviles

iOS

AplicaciónPrecioOfflineCaracterística
Aiko~$5.99 único100%Drag-and-drop muy simple
Whisper Notes$6.99 único100%Dictado a nivel de sistema vía Fn
Whisper TranscriptionFreemium (suscripción)iPhone 13+Resumen con IA, chat con transcripción
Just Press Record~$4.99ParcialUn solo toque, Apple Watch, iCloud sync
Whisper: Speech to TextFreemiumVariableInterfaz simple para grabación+transcripción

Android

AplicaciónPrecioOfflineCaracterística
Voice NotebookGratis + PremiumCon paquete de idiomaMejor dictado, valoración 4.8
SpeechnotesGratis, 5M+ descargasLimitadoTeclado de puntuación patentado
SpeechTexterGratis, 80+ idiomasNoVoice-to-text básico
Notely VoiceGratis, sin anunciosWhisper en smartphone para notas largas

Multiplataforma

AplicaciónPlataformasPrecioMultiidioma
TranskriptoriOS/Android/Web/Chrome/Firefox$9.99–30/mes
NottaiOS/Android/WebGratis 120 min/mes (3 min/conversación)Calidad variable
VomoiOS/AndroidFreemiumNotas de voz + IA

Tabla resumen: elección por caso de uso

EscenarioMejor opciónPrecioMultiidioma
Dictado rápido en cualquier campoHandy, Whisper NotesGratis / $6.99Whisper
Transcripción de archivos offlineVibe, BuzzGratisWhisper
GUI pulida para macOSMacWhisper Pro$79.99 para siempreWhisper
Aceleración GPU en WindowsWhisperDesktop, WhisperUIGratisWhisper
Subtítulos para videoSubtitle Edit + WhisperGratisWhisper
Editor de video + subtítulosCapCutGratis
Servidor self-hostedWhishperGratisWhisper
Tiempo real (live)WhisperLiveGratisWhisper
Transcripción humanaGoTranscript$1.20–2.75/minNativos
Móvil iOSAiko~$5.99Whisper
Móvil AndroidVoice NotebookGratisGoogle STT
Contenido a partir de grabacionesWhisperTranscribe~$15/mes57+ formatos

FAQ

¿Cuál es la mejor aplicación gratuita para transcripción?

Para escritorio, las mejores opciones gratuitas son Vibe y Buzz: ambas funcionan con Whisper y son completamente offline. Para transcripción en línea sin instalación, prueba TurboScribe (3 archivos al día de hasta 30 minutos gratis) y GigaChat de Sber (carga de audio de hasta 2 horas con diarización y resumen).

¿Se puede transcribir audio sin conexión a internet?

Sí. Todas las aplicaciones de escritorio basadas en Whisper (Vibe, Buzz, MacWhisper, WhisperDesktop) funcionan completamente offline una vez descargado el modelo. Tus datos no salen del ordenador, lo que garantiza total privacidad.

¿Qué aplicaciones reconocen mejor el idioma ruso?

La mayor precisión para ruso la ofrece GigaAM de Sber (8,4 % WER). Entre las herramientas gratuitas para consumidores destacan GigaChat (carga de audio) y Yandex SpeechKit (API empresarial, 95–97 % de precisión). Las apps basadas en Whisper ofrecen una calidad aceptable (~84 % de precisión para ruso).

¿Qué aplicación móvil elegir para transcribir en el teléfono?

En iOS, las mejores opciones son Aiko (~5,99 $, completamente offline) y Whisper Notes (6,99 $, dictado a nivel de sistema). En Android lidera Voice Notebook (gratis, valoración 4,8, mejor dictado en ruso mediante Google STT).

¿Cómo montar mi propio servidor de transcripción?

La mejor opción self-hosted es Whishper: una plataforma completa con interfaz web que se despliega con Docker Compose e incluye transcripción con faster-whisper, traducción de subtítulos y un editor integrado. Para transcripción en tiempo real, prueba WhisperLive de Collabora.