Усі статті

Як покращити якість аудіо для транскрипції: повний гайд

·15 хв читання

Якість аудіозапису — головний фактор, що визначає точність транскрибації. Навіть найпросунутіші моделі розпізнавання мовлення, включно з OpenAI Whisper, показують значно гірші результати на зашумлених, тихих або спотворених записах. У цьому гайді — конкретні кроки, щоб записати чистий звук і підготувати аудіо до транскрипції.


Чому якість аудіо критично важлива

Зв'язок між якістю запису та точністю транскрипції — прямий і вимірюваний. В індустрії використовується метрика WER (Word Error Rate) — відсоток помилково розпізнаних слів.

Типові показники WER:

Різниця між 5% і 25% WER — це різниця між "скопіював і використав" і "витратив годину на ручну правку". Вклавши 10 хвилин у підготовку запису, ви економите години на редагування результату.


Як записувати чистий звук

Вибір мікрофона

Вбудований мікрофон ноутбука — найгірший варіант для транскрипції. Він ловить усі звуки приміщення: клавіатуру, вентилятори, шум з вулиці. Навіть бюджетний зовнішній мікрофон дасть кардинально кращий результат.

USB-мікрофони (для запису за столом):

Петличні мікрофони (для інтерв'ю та розмов):

Для нарад та групових записів:

Правила запису

Навіть з хорошим мікрофоном можна отримати поганий запис, якщо не дотримуватися базових правил.

Вибір приміщення:

Відстань до мікрофона:

Рівень гучності:

Формат запису:

Запис нарад та дзвінків

Очні наради:

Запис із Zoom/Teams/Google Meet:

Запис телефонних дзвінків:


Обробка аудіо перед транскрипцією

Якщо запис вже зроблено і якість неідеальна — не все втрачено. Базова обробка може значно покращити результат транскрибації.

Шумозаглушення

Audacity (безкоштовно, Windows/Mac/Linux):

Audacity — найпопулярніший безкоштовний аудіоредактор. Ось покрокова інструкція з шумозаглушення:

  1. Відкрийте файл в Audacity
  2. Знайдіть ділянку запису, де ніхто не говорить, але чутний фоновий шум (хоча б 1-2 секунди)
  3. Виділіть цю ділянку мишкою
  4. Меню: Ефекти → Шумозаглушення → "Отримати профіль шуму"
  5. Виділіть весь запис (Ctrl+A)
  6. Меню: Ефекти → Шумозаглушення → налаштуйте параметри:
    • Шумозаглушення: 12-18 dB (почніть з 12, збільшуйте якщо шум залишається)
    • Чутливість: 6-8
    • Згладжування: 3-6
  7. Натисніть "Прослухати" для перевірки, потім "ОК"

Adobe Podcast Enhance (безкоштовний онлайн-інструмент):

Adobe пропонує безкоштовний інструмент для покращення якості мовлення на podcast.adobe.com/enhance. Завантажте файл — ШІ автоматично прибере шум, додасть чіткості голосу та нормалізує гучність. Обмеження: файли до 1 години. Результат вражає — часто краще за ручну обробку.

FFmpeg (командний рядок):

Для тих, хто віддає перевагу автоматизації, FFmpeg пропонує потужні фільтри. Фільтр afftdn забезпечує адаптивне шумозаглушення на основі FFT. Для більш агресивного шумозаглушення збільшіть значення параметра noise reduction до 30-40. Фільтр silenceremove допоможе прибрати довгі паузи, що корисно і для економії часу обробки.

Нормалізація гучності

Нормалізація вирівнює гучність запису — якщо людина говорила тихо, голос стане гучнішим; якщо перевантажувала мікрофон — піки згладяться.

Навіщо це потрібно:

Як зробити в Audacity:

  1. Відкрийте файл
  2. Виділіть весь запис (Ctrl+A)
  3. Меню: Ефекти → Нормалізація
  4. Встановіть пікову амплітуду: -1.0 dB
  5. Натисніть "ОК"

Для більш просунутої нормалізації використовуйте компресор (Ефекти → Компресор) — він вирівнює різницю між тихими та гучними ділянками, не зрізаючи піки.

Конвертація формату

Для транскрибації оптимальний певний формат аудіо. Діктовка автоматично конвертує завантажені файли, але якщо ви обробляєте вручну — ось ідеальні параметри:

Оптимальні параметри для транскрибації:

Чому mono краще за стерео:

В Audacity: Доріжки → Стерео в моно. Потім: Проект → Частота → 16000 Hz. Експорт: Файл → Експорт → WAV 16-bit.


Типові проблеми та рішення

ПроблемаПричинаРішення
Фоновий шум (гул, шипіння)Вентиляція, техніка, вулицяШумозаглушення в Audacity або Adobe Enhance
Ехо та ревербераціяПорожнє приміщення, голі стіниОбробка деехо-фільтром; надалі — записувати в кімнаті з м'якими меблями
Тихий голосДалеко від мікрофона, тиха моваНормалізація; при записі — ближче до мікрофона
Перебивання спікерівЛюди говорять одночасноПовністю виправити неможливо, але діаризація у Діктовці допомагає розділити репліки
Музика на фоніРадіо, фонова музикаVocal isolation (UVR5, Demucs); краще — вимкнути музику при записі
Клацання та хлопки (попси)Занадто близько до мікрофона, немає поп-фільтраФільтр de-click в Audacity; при записі — поп-фільтр або кут 45 градусів до мікрофона
Спотворення (кліпінг)Перевантаження мікрофонаВиправити неможливо; при записі — знизити рівень вхідного сигналу
Телефонна якістьСтиснений кодек зв'язкуНормалізація + легке шумозаглушення; за можливості записуйте через VoIP

Діктовка автоматично оптимізує аудіо

Сервіс Діктовка автоматично виконує основні кроки підготовки при завантаженні файлу:

Платформа справляється навіть з неідеальними записами — телефонними дзвінками, записами нарад у шумних приміщеннях, голосовими повідомленнями. Але чим краща вихідна якість, тим точніший результат. Інвестувавши 10 хвилин у підготовку, ви отримаєте значно точнішу транскрипцію.


Чекліст перед записом

Роздрукуйте або збережіть — перевіряйте перед кожним важливим записом:

  1. Мікрофон підключений та обраний як пристрій введення в системі
  2. Тестовий запис зроблено — прослухайте 10 секунд, переконайтеся в чистоті звуку
  3. Приміщення тихе — вікна зачинені, техніка вимкнена
  4. Відстань до мікрофона — 15-30 см (або петличка на 15-20 см від рота)
  5. Рівень запису — піки в діапазоні -12 до -6 dB, не торкаються червоної зони
  6. Формат запису — WAV або FLAC (не MP3 128 kbps)
  7. Місця на диску достатньо — WAV займає ~10 МБ/хв
  8. Попросіть учасників не перебивати та говорити чітко
  9. Поп-фільтр встановлено (для настільного мікрофона)
  10. Запис запущено — звучить очевидно, але забувається частіше, ніж здається

Підсумок

Покращити якість аудіо для транскрипції — це не ракетобудування. Хороший мікрофон за 700-4 500 гривень, тихе приміщення та правильні налаштування запису дають 80% результату. Решта 20% — обробка в Audacity або Adobe Enhance.

Завантажуйте підготовлене аудіо в Діктовку — і отримуйте транскрипцію, яку майже не потрібно редагувати.

FAQ

Який мікрофон найкраще підходить для транскрибації?

Для запису за столом оптимальний USB-мікрофон: бюджетний Fifine K669 (~700 грн) або Blue Yeti (~4 500 грн) для максимальної якості. Для інтерв'ю — петличка Boya BY-M1 (~500 грн). Для нарад — спікерфон Jabra Speak 510. Навіть бюджетний зовнішній мікрофон кардинально кращий за вбудований у ноутбук.

Як прибрати шум із аудіозапису перед транскрипцією?

У безкоштовному Audacity: знайдіть ділянку тиші з фоновим шумом, виділіть її, застосуйте «Отримати профіль шуму», потім виділіть весь запис і запустіть «Шумоприглушення» (12–18 дБ). Простіший варіант — Adobe Podcast Enhance (безкоштовний онлайн-інструмент), який автоматично очищує звук за допомогою ШІ.

Яка мінімальна якість аудіо потрібна для хорошої транскрипції?

Для точності 5–8% WER (мінімальне редагування) достатньо запису в тихому приміщенні із зовнішнім мікрофоном на відстані 15–30 см. Формат — WAV або MP3 320 kbps. При шумному записі WER зростає до 15–25%, а при поганій якості (ехо, тихий голос) — до 25–40%, що потребує серйозного ручного редагування.

У якому форматі найкраще записувати аудіо для транскрибації?

Оптимальні параметри: mono, 16 кГц, 16-bit WAV. Mono краще за стерео — моделі розпізнавання працюють з одноканальним сигналом, голос сильніший відносно фону, файл удвічі менший. Уникайте MP3 128 kbps і нижче — помітна втрата якості.

Як покращити запис за допомогою FFmpeg?

FFmpeg пропонує фільтр afftdn для адаптивного шумоприглушення на основі FFT. Для агресивнішого шумоприглушення збільшіть параметр noise reduction до 30–40. Фільтр silenceremove видаляє довгі паузи, що економить час обробки. Для конвертації в оптимальний формат: mono, 16 кГц, 16-bit.