Como mejorar la calidad del audio para transcripcion: guia completa

28 de marzo de 2026·15 min de lectura

La calidad del audio es el factor mas importante que determina la precision de una transcripcion. Incluso los modelos de reconocimiento de voz mas avanzados, incluido OpenAI Whisper, producen resultados significativamente peores con grabaciones ruidosas, silenciosas o distorsionadas. Esta guia cubre pasos concretos para grabar audio limpio y preparar tus archivos para la transcripcion.

Por que importa la calidad del audio

La relacion entre la calidad de grabacion y la precision de transcripcion es directa y medible. La metrica estandar de la industria es el WER (Word Error Rate) — el porcentaje de palabras reconocidas incorrectamente.

Valores tipicos de WER:

Grabacion limpia de estudio: 3-5% de errores — transcripcion casi perfecta
Buena grabacion en habitacion silenciosa: 5-8% — edicion minima necesaria
Grabacion con ruido de fondo: 15-25% — cada 4a a 6a palabra es incorrecta
Grabacion de mala calidad (ruido, eco, voz baja): 25-40% — el texto requiere edicion intensiva

La diferencia entre 5% y 25% de WER es la diferencia entre "copiar y usar" y "dedicar una hora a correcciones manuales". Invertir 10 minutos en la preparacion de la grabacion te ahorra horas de edicion.

Como grabar audio limpio

Eleccion del microfono

El microfono integrado de tu portatil es la peor opcion para transcripcion. Capta todos los sonidos de la habitacion: tecleo, ventiladores, ruido de la calle. Incluso un microfono externo economico producira resultados dramaticamente mejores.

Microfonos USB (para grabacion en escritorio):

Fifine K669 (~25 EUR) — microfono condensador USB economico. Excelente calidad por su precio, se conecta directamente al ordenador. Ideal para empezar.
Samson Q2U (~70 EUR) — microfono dual USB/XLR, lo que significa que crece contigo. Sonido limpio, conector de auriculares integrado para monitorizacion. Favorito entre podcasters con presupuesto limitado.
Blue Yeti (~110 EUR) — el clasico de los microfonos USB. Cuatro patrones polares, excelente calidad. Si tu presupuesto lo permite, es la mejor eleccion.

Microfonos de solapa (para entrevistas y conversaciones):

Boya BY-M1 (~15 EUR) — microfono de solapa con cable y excelente relacion calidad-precio. Se conecta por jack de 3,5 mm.
Rode Wireless GO II (~260 EUR) — sistema inalambrico de solapa con dos transmisores. Perfecto para entrevistas de dos personas con canales independientes.
Coloca el microfono de solapa a 15-20 cm de la boca — esto garantiza una voz limpia con ruido de fondo minimo.

Para reuniones y grabaciones de grupo:

Jabra Speak 510 (~100 EUR) — altavoz manos libres con microfono omnidireccional. Capta voces desde todos los angulos de la mesa.
Anker PowerConf S3 (~70 EUR) — altavoz de conferencia economico con 6 microfonos integrados y captacion de 360 grados.
En grabaciones de grupo, la ubicacion del microfono importa mas que su precio — un buen microfono en el centro de la mesa supera a uno caro en el borde.

Reglas de grabacion

Incluso con un gran microfono, puedes obtener una mala grabacion si ignoras las reglas basicas.

Seleccion de la habitacion:

Cierra ventanas y puertas
Apaga el aire acondicionado, ventiladores, humidificadores — cualquier fuente de ruido constante
Los muebles blandos, cortinas y alfombras son tus aliados — absorben el eco
Evita habitaciones vacias con paredes desnudas — producen mucha reverberacion

Distancia al microfono:

Optima: 15-30 cm de la boca al microfono
Demasiado cerca (<10 cm): las consonantes oclusivas (p, b, t) causan "pops" — chasquidos en la grabacion
Demasiado lejos (>50 cm): tu voz se pierde en el ambiente de la habitacion
Usa un filtro anti-pop para microfonos de escritorio — una malla economica que elimina los pops de la respiracion

Niveles de volumen:

Comprueba los niveles en tu app de grabacion antes de empezar
Rango ideal: de -12 a -6 dB (nivel de pico)
Si el medidor toca la zona roja, estas sobrecargando el microfono y el audio se distorsionara
Es mejor grabar un poco mas bajo — puedes subir el volumen en postproduccion, pero no puedes eliminar la distorsion

Formato de grabacion:

WAV o FLAC — para maxima calidad (sin perdida)
MP3 320 kbps — un compromiso aceptable cuando importa el tamano del archivo
MP3 128 kbps o inferior — perdida de calidad notable, evitalo para grabaciones importantes
La mayoria de las apps de grabacion permiten elegir el formato — elige WAV

Grabar reuniones y llamadas

Reuniones presenciales:

Coloca el microfono en el centro de la mesa
Para mas de 6 participantes, usa varios microfonos o un altavoz de conferencia
Pide a los participantes que no hablen al mismo tiempo — ni el mejor algoritmo de diarizacion puede separar el habla simultanea

Grabar Zoom/Teams/Google Meet:

Usa la funcion de grabacion integrada de la plataforma — captura el audio directamente, sin pasar por altavoces y microfono
En Zoom: Configuracion → Grabacion → "Grabar un archivo de audio separado para cada participante" — ideal para transcripcion con diarizacion
Alternativa: OBS Studio (gratuito) puede grabar el audio del sistema desde cualquier fuente

Grabar llamadas telefonicas:

En iPhone: no hay grabacion de llamadas integrada; usa TapeACall o Rev Call Recorder
En Android: ACR (Another Call Recorder) o Cube ACR
La calidad de grabacion de llamadas siempre es inferior — las redes telefonicas usan codecs comprimidos. Es normal; Whisper maneja bien este nivel de calidad

Procesamiento de audio antes de la transcripcion

Si la grabacion ya esta hecha y la calidad no es ideal, no todo esta perdido. El procesamiento basico puede mejorar significativamente los resultados de la transcripcion.

Reduccion de ruido

Audacity (gratuito, Windows/Mac/Linux):

Audacity es el editor de audio gratuito mas popular. Aqui tienes una guia paso a paso para la reduccion de ruido:

Abre tu archivo en Audacity
Busca una seccion donde nadie habla pero se oye el ruido de fondo (al menos 1-2 segundos)
Selecciona esa seccion con el raton
Menu: Efectos → Reduccion de ruido → "Obtener perfil de ruido"
Selecciona toda la grabacion (Ctrl+A / Cmd+A)
Menu: Efectos → Reduccion de ruido → ajusta los parametros:
- Reduccion de ruido: 12-18 dB (empieza con 12, aumenta si el ruido persiste)
- Sensibilidad: 6-8
- Suavizado de frecuencia: 3-6
Haz clic en "Vista previa" para comprobar, luego "Aceptar"

Adobe Podcast Enhance (herramienta online gratuita):

Adobe ofrece una herramienta gratuita de mejora de voz en podcast.adobe.com/enhance. Sube tu archivo — la IA elimina automaticamente el ruido, anade claridad a la voz y normaliza el volumen. Limite: archivos de hasta 1 hora. Los resultados son impresionantes — a menudo mejores que el procesamiento manual.

FFmpeg (linea de comandos):

Para quienes prefieren la automatizacion, FFmpeg ofrece filtros potentes. El filtro afftdn proporciona reduccion de ruido adaptativa basada en FFT. Para una eliminacion de ruido mas agresiva, aumenta el parametro de reduccion a 30-40. El filtro silenceremove ayuda a recortar pausas largas, lo que tambien ahorra tiempo de procesamiento.

Normalizacion de volumen

La normalizacion equilibra el volumen de la grabacion — el habla suave se hace mas fuerte, los picos se suavizan.

Por que importa:

Whisper y otros modelos funcionan mejor con audio correctamente nivelado
Si una grabacion tiene varios hablantes a diferentes volumenes, la normalizacion los equilibra
Las secciones silenciosas a menudo se transcriben con errores

Como hacerlo en Audacity:

Abre tu archivo
Selecciona toda la grabacion (Ctrl+A / Cmd+A)
Menu: Efectos → Normalizar
Establece la amplitud de pico en: -1,0 dB
Haz clic en "Aceptar"

Para una normalizacion mas avanzada, usa el Compresor (Efectos → Compresor) — equilibra la diferencia entre secciones silenciosas y fuertes sin recortar los picos.

Conversion de formato

Existe un formato de audio optimo para la transcripcion. Диктовка convierte automaticamente los archivos subidos, pero si procesas manualmente, estos son los parametros ideales:

Parametros optimos para transcripcion:

Canales: Mono (1 canal)
Frecuencia de muestreo: 16.000 Hz (16 kHz)
Profundidad de bits: 16-bit
Formato: WAV u Opus

Por que mono es mejor que estereo:

Los modelos de reconocimiento de voz trabajan con senales mono
Un archivo estereo se convierte a mono antes del procesamiento — es un paso innecesario
En mono, la voz es mas fuerte en relacion con el ruido de fondo
El archivo ocupa la mitad de espacio

En Audacity: Pistas → Mezclar → Mezclar estereo a mono. Luego: Proyecto → Frecuencia → 16000 Hz. Exportar: Archivo → Exportar → WAV 16-bit.

Problemas comunes y soluciones

Problema	Causa	Solucion
Ruido de fondo (zumbido, siseo)	Climatizacion, electronica, trafico	Reduccion de ruido en Audacity o Adobe Enhance
Eco y reverberacion	Habitacion vacia, paredes desnudas	Filtro de-reverb; para futuras grabaciones, usar habitacion con muebles blandos
Voz baja	Demasiado lejos del microfono	Normalizacion; al grabar, acercarse al microfono
Hablantes superpuestos	Personas hablando simultaneamente	No se puede arreglar del todo, pero la diarizacion en Диктовка ayuda a separar hablantes
Musica de fondo	Radio, musica ambiental	Herramientas de aislamiento vocal (UVR5, Demucs); mejor solucion: apagar la musica al grabar
Pops y clics	Muy cerca del micro, sin filtro anti-pop	Filtro de-click en Audacity; usar filtro anti-pop o inclinar el micro 45 grados
Distorsion (clipping)	Sobrecarga del microfono	No se puede arreglar despues; bajar el nivel de entrada antes de grabar
Calidad telefonica	Codec de voz comprimido	Normalizacion + reduccion de ruido ligera; usar VoIP cuando sea posible

Диктовка optimiza tu audio automaticamente

La plataforma Диктовка realiza automaticamente los pasos clave de preparacion cuando subes un archivo:

Conversion al formato optimo (mono, 16 kHz, Opus 32 kbps)
Procesamiento FFmpeg — normalizacion basica y preparacion de la senal
Diarizacion de hablantes — deteccion automatica de quien habla
Resumen con IA — un resumen breve de la grabacion

La plataforma maneja incluso grabaciones imperfectas — llamadas telefonicas, grabaciones de reuniones ruidosas, mensajes de voz. Pero cuanto mejor sea la calidad de origen, mas preciso sera el resultado. Invertir 10 minutos en la preparacion produce una transcripcion significativamente mas precisa.

Lista de verificacion previa a la grabacion

Imprimela o guardala — comprueba antes de cada grabacion importante:

Microfono conectado y seleccionado como dispositivo de entrada en la configuracion del sistema
Grabacion de prueba realizada — escucha 10 segundos, verifica que el audio esta limpio
Habitacion silenciosa — ventanas cerradas, dispositivos ruidosos apagados
Distancia al microfono — 15-30 cm (o solapa a 15-20 cm de la boca)
Nivel de grabacion — picos entre -12 y -6 dB, sin tocar la zona roja
Formato de grabacion — WAV o FLAC (no MP3 128 kbps)
Espacio en disco suficiente — WAV usa ~10 MB/min
Pedir a los participantes que no interrumpan y hablen con claridad
Filtro anti-pop colocado (para microfonos de escritorio)
Grabacion en marcha — suena obvio, pero se olvida mas a menudo de lo que crees

Conclusion

Mejorar la calidad del audio para transcripcion no es ciencia espacial. Un microfono decente por 25-110 EUR, una habitacion silenciosa y la configuracion correcta de grabacion aportan el 80% del resultado. El 20% restante es postproduccion en Audacity o Adobe Enhance.

Sube tu audio preparado a Диктовка — y obtendras una transcripcion que apenas necesita edicion.

FAQ

Cual es el mejor microfono para transcripcion?

Para grabacion de escritorio, un microfono USB es ideal: el economico Fifine K669 (~25 EUR) o el Blue Yeti (~110 EUR) para maxima calidad. Para entrevistas, un microfono de solapa como Boya BY-M1 (~15 EUR). Para reuniones, un altavoz de conferencia como Jabra Speak 510. Incluso un microfono externo economico es muchisimo mejor que el integrado del portatil.

Como eliminar el ruido de una grabacion antes de transcribirla?

En Audacity (gratuito): busca una seccion de silencio con ruido de fondo, seleccionala, aplica 'Obtener perfil de ruido', luego selecciona toda la grabacion y ejecuta 'Reduccion de ruido' (12-18 dB). Una opcion mas sencilla es Adobe Podcast Enhance (herramienta online gratuita), que limpia el audio automaticamente con IA.

Cual es la calidad minima de audio necesaria para una buena transcripcion?

Para un WER del 5-8% (edicion minima), basta con grabar en una habitacion silenciosa con un microfono externo a 15-30 cm. Formato: WAV o MP3 320 kbps. Con grabaciones ruidosas, el WER sube al 15-25%, y con mala calidad (eco, voz baja) al 25-40%, lo que requiere edicion manual considerable.

Cual es el mejor formato de audio para transcripcion?

Parametros optimos: mono, 16 kHz, 16-bit WAV. Mono es mejor que estereo: los modelos de reconocimiento de voz trabajan con senal monocanal, la voz destaca mas sobre el ruido de fondo y el archivo pesa la mitad. Evita MP3 128 kbps e inferior por la perdida de calidad notable.

Como puedo mejorar una grabacion con FFmpeg?

FFmpeg ofrece el filtro afftdn para reduccion de ruido adaptativa basada en FFT. Para una reduccion mas agresiva, aumenta el parametro noise reduction a 30-40. El filtro silenceremove elimina pausas largas, ahorrando tiempo de procesamiento. Para conversion optima de formato: mono, 16 kHz, 16-bit.

Probar Диктовка

←Todos los artículos