Todos los artículos

Como mejorar la calidad del audio para transcripcion: guia completa

·15 min de lectura

La calidad del audio es el factor mas importante que determina la precision de una transcripcion. Incluso los modelos de reconocimiento de voz mas avanzados, incluido OpenAI Whisper, producen resultados significativamente peores con grabaciones ruidosas, silenciosas o distorsionadas. Esta guia cubre pasos concretos para grabar audio limpio y preparar tus archivos para la transcripcion.


Por que importa la calidad del audio

La relacion entre la calidad de grabacion y la precision de transcripcion es directa y medible. La metrica estandar de la industria es el WER (Word Error Rate) — el porcentaje de palabras reconocidas incorrectamente.

Valores tipicos de WER:

La diferencia entre 5% y 25% de WER es la diferencia entre "copiar y usar" y "dedicar una hora a correcciones manuales". Invertir 10 minutos en la preparacion de la grabacion te ahorra horas de edicion.


Como grabar audio limpio

Eleccion del microfono

El microfono integrado de tu portatil es la peor opcion para transcripcion. Capta todos los sonidos de la habitacion: tecleo, ventiladores, ruido de la calle. Incluso un microfono externo economico producira resultados dramaticamente mejores.

Microfonos USB (para grabacion en escritorio):

Microfonos de solapa (para entrevistas y conversaciones):

Para reuniones y grabaciones de grupo:

Reglas de grabacion

Incluso con un gran microfono, puedes obtener una mala grabacion si ignoras las reglas basicas.

Seleccion de la habitacion:

Distancia al microfono:

Niveles de volumen:

Formato de grabacion:

Grabar reuniones y llamadas

Reuniones presenciales:

Grabar Zoom/Teams/Google Meet:

Grabar llamadas telefonicas:


Procesamiento de audio antes de la transcripcion

Si la grabacion ya esta hecha y la calidad no es ideal, no todo esta perdido. El procesamiento basico puede mejorar significativamente los resultados de la transcripcion.

Reduccion de ruido

Audacity (gratuito, Windows/Mac/Linux):

Audacity es el editor de audio gratuito mas popular. Aqui tienes una guia paso a paso para la reduccion de ruido:

  1. Abre tu archivo en Audacity
  2. Busca una seccion donde nadie habla pero se oye el ruido de fondo (al menos 1-2 segundos)
  3. Selecciona esa seccion con el raton
  4. Menu: Efectos → Reduccion de ruido → "Obtener perfil de ruido"
  5. Selecciona toda la grabacion (Ctrl+A / Cmd+A)
  6. Menu: Efectos → Reduccion de ruido → ajusta los parametros:
    • Reduccion de ruido: 12-18 dB (empieza con 12, aumenta si el ruido persiste)
    • Sensibilidad: 6-8
    • Suavizado de frecuencia: 3-6
  7. Haz clic en "Vista previa" para comprobar, luego "Aceptar"

Adobe Podcast Enhance (herramienta online gratuita):

Adobe ofrece una herramienta gratuita de mejora de voz en podcast.adobe.com/enhance. Sube tu archivo — la IA elimina automaticamente el ruido, anade claridad a la voz y normaliza el volumen. Limite: archivos de hasta 1 hora. Los resultados son impresionantes — a menudo mejores que el procesamiento manual.

FFmpeg (linea de comandos):

Para quienes prefieren la automatizacion, FFmpeg ofrece filtros potentes. El filtro afftdn proporciona reduccion de ruido adaptativa basada en FFT. Para una eliminacion de ruido mas agresiva, aumenta el parametro de reduccion a 30-40. El filtro silenceremove ayuda a recortar pausas largas, lo que tambien ahorra tiempo de procesamiento.

Normalizacion de volumen

La normalizacion equilibra el volumen de la grabacion — el habla suave se hace mas fuerte, los picos se suavizan.

Por que importa:

Como hacerlo en Audacity:

  1. Abre tu archivo
  2. Selecciona toda la grabacion (Ctrl+A / Cmd+A)
  3. Menu: Efectos → Normalizar
  4. Establece la amplitud de pico en: -1,0 dB
  5. Haz clic en "Aceptar"

Para una normalizacion mas avanzada, usa el Compresor (Efectos → Compresor) — equilibra la diferencia entre secciones silenciosas y fuertes sin recortar los picos.

Conversion de formato

Existe un formato de audio optimo para la transcripcion. Diktovka convierte automaticamente los archivos subidos, pero si procesas manualmente, estos son los parametros ideales:

Parametros optimos para transcripcion:

Por que mono es mejor que estereo:

En Audacity: Pistas → Mezclar → Mezclar estereo a mono. Luego: Proyecto → Frecuencia → 16000 Hz. Exportar: Archivo → Exportar → WAV 16-bit.


Problemas comunes y soluciones

ProblemaCausaSolucion
Ruido de fondo (zumbido, siseo)Climatizacion, electronica, traficoReduccion de ruido en Audacity o Adobe Enhance
Eco y reverberacionHabitacion vacia, paredes desnudasFiltro de-reverb; para futuras grabaciones, usar habitacion con muebles blandos
Voz bajaDemasiado lejos del microfonoNormalizacion; al grabar, acercarse al microfono
Hablantes superpuestosPersonas hablando simultaneamenteNo se puede arreglar del todo, pero la diarizacion en Diktovka ayuda a separar hablantes
Musica de fondoRadio, musica ambientalHerramientas de aislamiento vocal (UVR5, Demucs); mejor solucion: apagar la musica al grabar
Pops y clicsMuy cerca del micro, sin filtro anti-popFiltro de-click en Audacity; usar filtro anti-pop o inclinar el micro 45 grados
Distorsion (clipping)Sobrecarga del microfonoNo se puede arreglar despues; bajar el nivel de entrada antes de grabar
Calidad telefonicaCodec de voz comprimidoNormalizacion + reduccion de ruido ligera; usar VoIP cuando sea posible

Diktovka optimiza tu audio automaticamente

La plataforma Diktovka realiza automaticamente los pasos clave de preparacion cuando subes un archivo:

La plataforma maneja incluso grabaciones imperfectas — llamadas telefonicas, grabaciones de reuniones ruidosas, mensajes de voz. Pero cuanto mejor sea la calidad de origen, mas preciso sera el resultado. Invertir 10 minutos en la preparacion produce una transcripcion significativamente mas precisa.


Lista de verificacion previa a la grabacion

Imprimela o guardala — comprueba antes de cada grabacion importante:

  1. Microfono conectado y seleccionado como dispositivo de entrada en la configuracion del sistema
  2. Grabacion de prueba realizada — escucha 10 segundos, verifica que el audio esta limpio
  3. Habitacion silenciosa — ventanas cerradas, dispositivos ruidosos apagados
  4. Distancia al microfono — 15-30 cm (o solapa a 15-20 cm de la boca)
  5. Nivel de grabacion — picos entre -12 y -6 dB, sin tocar la zona roja
  6. Formato de grabacion — WAV o FLAC (no MP3 128 kbps)
  7. Espacio en disco suficiente — WAV usa ~10 MB/min
  8. Pedir a los participantes que no interrumpan y hablen con claridad
  9. Filtro anti-pop colocado (para microfonos de escritorio)
  10. Grabacion en marcha — suena obvio, pero se olvida mas a menudo de lo que crees

Conclusion

Mejorar la calidad del audio para transcripcion no es ciencia espacial. Un microfono decente por 25-110 EUR, una habitacion silenciosa y la configuracion correcta de grabacion aportan el 80% del resultado. El 20% restante es postproduccion en Audacity o Adobe Enhance.

Sube tu audio preparado a Diktovka — y obtendras una transcripcion que apenas necesita edicion.

FAQ

Cual es el mejor microfono para transcripcion?

Para grabacion de escritorio, un microfono USB es ideal: el economico Fifine K669 (~25 EUR) o el Blue Yeti (~110 EUR) para maxima calidad. Para entrevistas, un microfono de solapa como Boya BY-M1 (~15 EUR). Para reuniones, un altavoz de conferencia como Jabra Speak 510. Incluso un microfono externo economico es muchisimo mejor que el integrado del portatil.

Como eliminar el ruido de una grabacion antes de transcribirla?

En Audacity (gratuito): busca una seccion de silencio con ruido de fondo, seleccionala, aplica 'Obtener perfil de ruido', luego selecciona toda la grabacion y ejecuta 'Reduccion de ruido' (12-18 dB). Una opcion mas sencilla es Adobe Podcast Enhance (herramienta online gratuita), que limpia el audio automaticamente con IA.

Cual es la calidad minima de audio necesaria para una buena transcripcion?

Para un WER del 5-8% (edicion minima), basta con grabar en una habitacion silenciosa con un microfono externo a 15-30 cm. Formato: WAV o MP3 320 kbps. Con grabaciones ruidosas, el WER sube al 15-25%, y con mala calidad (eco, voz baja) al 25-40%, lo que requiere edicion manual considerable.

Cual es el mejor formato de audio para transcripcion?

Parametros optimos: mono, 16 kHz, 16-bit WAV. Mono es mejor que estereo: los modelos de reconocimiento de voz trabajan con senal monocanal, la voz destaca mas sobre el ruido de fondo y el archivo pesa la mitad. Evita MP3 128 kbps e inferior por la perdida de calidad notable.

Como puedo mejorar una grabacion con FFmpeg?

FFmpeg ofrece el filtro afftdn para reduccion de ruido adaptativa basada en FFT. Para una reduccion mas agresiva, aumenta el parametro noise reduction a 30-40. El filtro silenceremove elimina pausas largas, ahorrando tiempo de procesamiento. Para conversion optima de formato: mono, 16 kHz, 16-bit.