Все статьи

Как улучшить качество аудио для транскрипции: полный гайд

·15 мин чтения

Качество аудиозаписи — главный фактор, определяющий точность транскрибации. Даже самые продвинутые модели распознавания речи, включая OpenAI Whisper, показывают значительно худшие результаты на зашумлённых, тихих или искажённых записях. В этом гайде — конкретные шаги, чтобы записать чистый звук и подготовить аудио к транскрипции.


Почему качество аудио критически важно

Связь между качеством записи и точностью транскрипции — прямая и измеримая. В индустрии используется метрика WER (Word Error Rate) — процент ошибочно распознанных слов.

Типичные показатели WER:

Разница между 5% и 25% WER — это разница между «скопировал и использовал» и «потратил час на ручную правку». Вложив 10 минут в подготовку записи, вы экономите часы на редактирование результата.


Как записывать чистый звук

Выбор микрофона

Встроенный микрофон ноутбука — самый плохой вариант для транскрипции. Он ловит все звуки помещения: клавиатуру, вентиляторы, шум с улицы. Даже бюджетный внешний микрофон даст кардинально лучший результат.

USB-микрофоны (для записи за столом):

Петличные микрофоны (для интервью и разговоров):

Для совещаний и групповых записей:

Правила записи

Даже с хорошим микрофоном можно получить плохую запись, если не соблюдать базовые правила.

Выбор помещения:

Расстояние до микрофона:

Уровень громкости:

Формат записи:

Запись совещаний и звонков

Очные совещания:

Запись из Zoom/Teams/Google Meet:

Запись телефонных звонков:


Обработка аудио перед транскрипцией

Если запись уже сделана и качество неидеальное — не всё потеряно. Базовая обработка может значительно улучшить результат транскрибации.

Шумоподавление

Audacity (бесплатно, Windows/Mac/Linux):

Audacity — самый популярный бесплатный аудиоредактор. Вот пошаговая инструкция по шумоподавлению:

  1. Откройте файл в Audacity
  2. Найдите участок записи, где никто не говорит, но слышен фоновый шум (хотя бы 1-2 секунды)
  3. Выделите этот участок мышью
  4. Меню: Эффекты → Шумоподавление → «Получить профиль шума»
  5. Выделите всю запись (Ctrl+A)
  6. Меню: Эффекты → Шумоподавление → настройте параметры:
    • Шумоподавление: 12-18 dB (начните с 12, увеличивайте если шум остаётся)
    • Чувствительность: 6-8
    • Сглаживание: 3-6
  7. Нажмите «Прослушать» для проверки, затем «ОК»

Adobe Podcast Enhance (бесплатный онлайн-инструмент):

Adobe предлагает бесплатный инструмент для улучшения качества речи на podcast.adobe.com/enhance. Загрузите файл — ИИ автоматически уберёт шум, добавит чёткости голосу и нормализует громкость. Ограничение: файлы до 1 часа. Результат впечатляет — часто лучше ручной обработки.

FFmpeg (командная строка):

Для тех, кто предпочитает автоматизацию, FFmpeg предлагает мощные фильтры:

Простое шумоподавление — используйте фильтр afftdn (адаптивное шумоподавление на основе FFT). Для более агрессивного шумоподавления увеличьте значение параметра noise reduction до 30-40.

Удаление тишины и пауз — фильтр silenceremove поможет убрать длинные паузы, что полезно и для экономии времени обработки.

Нормализация громкости

Нормализация выравнивает громкость записи — если человек говорил тихо, голос станет громче; если перегружал микрофон — пики сгладятся.

Зачем это нужно:

Как сделать в Audacity:

  1. Откройте файл
  2. Выделите всю запись (Ctrl+A)
  3. Меню: Эффекты → Нормализация
  4. Установите пиковую амплитуду: -1.0 dB
  5. Нажмите «ОК»

Для более продвинутой нормализации используйте компрессор (Эффекты → Компрессор) — он выравнивает разницу между тихими и громкими участками, не срезая пики.

Конвертация формата

Для транскрибации оптимален определённый формат аудио. Диктовка автоматически конвертирует загруженные файлы, но если вы обрабатываете вручную — вот идеальные параметры:

Оптимальные параметры для транскрибации:

Почему mono лучше стерео:

В Audacity: Дорожки → Стерео в моно. Затем: Проект → Частота → 16000 Hz. Экспорт: Файл → Экспорт → WAV 16-bit.


Типичные проблемы и решения

ПроблемаПричинаРешение
Фоновый шум (гул, шипение)Вентиляция, техника, улицаШумоподавление в Audacity или Adobe Enhance
Эхо и реверберацияПустое помещение, голые стеныОбработка деэхо-фильтром; в будущем — записывать в комнате с мягкой мебелью
Тихий голосДалеко от микрофона, тихая речьНормализация; при записи — ближе к микрофону
Перебивания спикеровЛюди говорят одновременноПолностью исправить невозможно, но диаризация в Диктовке помогает разделить реплики
Музыка на фонеРадио, фоновая музыкаVocal isolation (UVR5, Demucs); лучше — выключить музыку при записи
Щелчки и хлопки (попсы)Слишком близко к микрофону, нет поп-фильтраФильтр de-click в Audacity; при записи — поп-фильтр или угол 45 градусов к микрофону
Искажения (клиппинг)Перегрузка микрофонаИсправить невозможно; при записи — снизить уровень входного сигнала
Телефонное качествоСжатый кодек связиНормализация + лёгкое шумоподавление; по возможности записывайте через VoIP

Диктовка автоматически оптимизирует аудио

Сервис Диктовка (дикто́вка.рф) автоматически выполняет основные шаги подготовки при загрузке файла:

Платформа справляется даже с неидеальными записями — телефонными звонками, записями совещаний в шумных помещениях, голосовыми сообщениями. Но чем лучше исходное качество, тем точнее результат. Инвестировав 10 минут в подготовку, вы получите значительно более точную транскрипцию.


Чеклист перед записью

Распечатайте или сохраните — проверяйте перед каждой важной записью:

  1. Микрофон подключён и выбран как устройство ввода в системе
  2. Тестовая запись сделана — прослушайте 10 секунд, убедитесь в чистоте звука
  3. Помещение тихое — окна закрыты, техника выключена
  4. Расстояние до микрофона — 15-30 см (или петличка на 15-20 см от рта)
  5. Уровень записи — пики в диапазоне -12 до -6 dB, не касаются красной зоны
  6. Формат записи — WAV или FLAC (не MP3 128 kbps)
  7. Место на диске достаточно — WAV занимает ~10 МБ/мин
  8. Попросите участников не перебивать и говорить чётко
  9. Поп-фильтр установлен (для настольного микрофона)
  10. Запись запущена — звучит очевидно, но забывается чаще, чем кажется

Итог

Улучшить качество аудио для транскрипции — это не ракетостроение. Хороший микрофон за 2-3 тысячи рублей, тихое помещение и правильные настройки записи дают 80% результата. Оставшиеся 20% — обработка в Audacity или Adobe Enhance.

Загружайте подготовленное аудио в Диктовку — и получайте транскрипцию, которую почти не нужно редактировать.

FAQ

Какой микрофон лучше всего подходит для транскрибации?

Для записи за столом оптимален USB-микрофон: бюджетный Fifine K669 (~2 000 руб.) или Blue Yeti (~8 000 руб.) для максимального качества. Для интервью — петличка Boya BY-M1 (~1 200 руб.). Для совещаний — спикерфон Jabra Speak 510. Даже бюджетный внешний микрофон кардинально лучше встроенного в ноутбук.

Как убрать шум из аудиозаписи перед транскрипцией?

В бесплатном Audacity: найдите участок тишины с фоновым шумом, выделите его, примените «Получить профиль шума», затем выделите всю запись и запустите «Шумоподавление» (12–18 dB). Более простой вариант — Adobe Podcast Enhance (бесплатный онлайн-инструмент), который автоматически чистит звук с помощью ИИ.

Какое минимальное качество аудио нужно для хорошей транскрипции?

Для точности 5–8% WER (минимальная правка) достаточно записи в тихом помещении с внешним микрофоном на расстоянии 15–30 см. Формат — WAV или MP3 320 kbps. При шумной записи WER вырастает до 15–25%, а при плохом качестве (эхо, тихий голос) — до 25–40%, что требует серьёзной ручной правки.

В каком формате лучше записывать аудио для транскрибации?

Оптимальные параметры: mono, 16 kHz, 16-bit WAV. Mono лучше стерео — модели распознавания работают с одноканальным сигналом, голос сильнее относительно фона, файл вдвое меньше. Избегайте MP3 128 kbps и ниже — заметная потеря качества.

Как улучшить запись с помощью FFmpeg?

FFmpeg предлагает фильтр afftdn для адаптивного шумоподавления на основе FFT. Для агрессивного шумоподавления увеличьте параметр noise reduction до 30–40. Фильтр silenceremove удаляет длинные паузы, что экономит время обработки. Для конвертации в оптимальный формат: mono, 16 kHz, 16-bit.