Усе артыкулы

Як палепшыць якасць аўдыё для транскрыпцыі: поўны гайд

·15 хв чытання

Якасць аўдыёзапісу — галоўны фактар, які вызначае дакладнасць транскрыбацыі. Нават самыя перадавыя мадэлі распазнавання маўлення, уключаючы OpenAI Whisper, паказваюць значна горшыя вынікі на зашумленых, ціхіх або скажоных запісах. У гэтым гайдзе — канкрэтныя крокі, каб запісаць чысты гук і падрыхтаваць аўдыё да транскрыпцыі.


Чаму якасць аўдыё крытычна важная

Сувязь паміж якасцю запісу і дакладнасцю транскрыпцыі — прамая і вымерная. У індустрыі выкарыстоўваецца метрыка WER (Word Error Rate) — працэнт памылкова распазнаных слоў.

Тыповыя паказчыкі WER:

Розніца паміж 5% і 25% WER — гэта розніца паміж "скапіраваў і выкарыстаў" і "патраціў гадзіну на ручную праўку". Уклаўшы 10 хвілін у падрыхтоўку запісу, вы эканоміце гадзіны на рэдагаванне выніку.


Як запісваць чысты гук

Выбар мікрафона

Убудаваны мікрафон ноўтбука — самы дрэнны варыянт для транскрыпцыі. Ён ловіць усе гукі памяшкання: клавіятуру, вентылятары, шум з вуліцы. Нават бюджэтны знешні мікрафон дасць кардынальна лепшы вынік.

USB-мікрафоны (для запісу за сталом):

Петлічныя мікрафоны (для інтэрв'ю і размоў):

Для нарад і групавых запісаў:

Правілы запісу

Нават з добрым мікрафонам можна атрымаць дрэнны запіс, калі не выконваць базавыя правілы.

Выбар памяшкання:

Адлегласць да мікрафона:

Узровень гучнасці:

Фармат запісу:

Запіс нарад і званкоў

Ачныя нарады:

Запіс з Zoom/Teams/Google Meet:

Запіс тэлефонных званкоў:


Апрацоўка аўдыё перад транскрыпцыяй

Калі запіс ужо зроблены і якасць неідэальная — не ўсё страчана. Базавая апрацоўка можа значна палепшыць вынік транскрыбацыі.

Шумапрыглушэнне

Audacity (бясплатна, Windows/Mac/Linux):

Audacity — самы папулярны бясплатны аўдыёрэдактар. Вось пакрокавая інструкцыя па шумапрыглушэнні:

  1. Адкрыйце файл у Audacity
  2. Знайдзіце ўчастак запісу, дзе ніхто не гаворыць, але чутны фонавы шум (хаця б 1-2 секунды)
  3. Вылучыце гэты ўчастак мышшу
  4. Меню: Эфекты → Шумапрыглушэнне → "Атрымаць профіль шуму"
  5. Вылучыце ўвесь запіс (Ctrl+A)
  6. Меню: Эфекты → Шумапрыглушэнне → наладзьце параметры:
    • Шумапрыглушэнне: 12-18 dB (пачніце з 12, павялічвайце калі шум застаецца)
    • Адчувальнасць: 6-8
    • Згладжванне: 3-6
  7. Націсніце "Праслухаць" для праверкі, потым "ОК"

Adobe Podcast Enhance (бясплатны анлайн-інструмент):

Adobe прапаноўвае бясплатны інструмент для паляпшэння якасці маўлення на podcast.adobe.com/enhance. Загрузіце файл — ШІ аўтаматычна прыбярэ шум, дадасць выразнасці голасу і нармалізуе гучнасць. Абмежаванне: файлы да 1 гадзіны. Вынік уражвае — часта лепш за ручную апрацоўку.

FFmpeg (камандны радок):

Для тых, хто аддае перавагу аўтаматызацыі, FFmpeg прапаноўвае магутныя фільтры. Фільтр afftdn забяспечвае адаптыўнае шумапрыглушэнне на аснове FFT. Для больш агрэсіўнага шумапрыглушэння павялічце значэнне параметра noise reduction да 30-40. Фільтр silenceremove дапаможа прыбраць доўгія паўзы.

Нармалізацыя гучнасці

Нармалізацыя выраўноўвае гучнасць запісу — калі чалавек гаварыў ціха, голас стане гучнейшым; калі перагружаў мікрафон — пікі згладзяцца.

Навошта гэта трэба:

Як зрабіць у Audacity:

  1. Адкрыйце файл
  2. Вылучыце ўвесь запіс (Ctrl+A)
  3. Меню: Эфекты → Нармалізацыя
  4. Усталюйце пікавую амплітуду: -1.0 dB
  5. Націсніце "ОК"

Для больш прасунутай нармалізацыі выкарыстоўвайце кампрэсар (Эфекты → Кампрэсар) — ён выраўноўвае розніцу паміж ціхімі і гучнымі ўчасткамі, не зразаючы пікі.

Канвертацыя фармату

Для транскрыбацыі аптымальны пэўны фармат аўдыё. Дыктоўка аўтаматычна канвертуе загружаныя файлы, але калі вы апрацоўваеце ўручную — вось ідэальныя параметры:

Аптымальныя параметры для транскрыбацыі:

Чаму mono лепш за стэрэа:

У Audacity: Дарожкі → Стэрэа ў мона. Потым: Праект → Частата → 16000 Hz. Экспарт: Файл → Экспарт → WAV 16-bit.


Тыповыя праблемы і рашэнні

ПраблемаПрычынаРашэнне
Фонавы шум (гул, шыпенне)Вентыляцыя, тэхніка, вуліцаШумапрыглушэнне ў Audacity або Adobe Enhance
Рэха і рэверберацыяПустое памяшканне, голыя сценыАпрацоўка дэрэха-фільтрам; надалей — запісваць у пакоі з мяккай мэбляй
Ціхі голасДалёка ад мікрафона, ціхае маўленнеНармалізацыя; пры запісе — бліжэй да мікрафона
Перабіванне спікераўЛюдзі гавораць адначасоваЦалкам выправіць немагчыма, але дыярызацыя ў Дыктоўцы дапамагае раздзяліць рэплікі
Музыка на фонеРадыё, фонавая музыкаVocal isolation (UVR5, Demucs); лепш — выключыць музыку пры запісе
Пстрычкі і хлопкі (попсы)Занадта блізка да мікрафона, няма поп-фільтраФільтр de-click у Audacity; пры запісе — поп-фільтр або кут 45 градусаў да мікрафона
Скажэнні (кліпінг)Перагрузка мікрафонаВыправіць немагчыма; пры запісе — знізіць узровень уваходнага сігналу
Тэлефонная якасцьСціснуты кодэк сувязіНармалізацыя + лёгкае шумапрыглушэнне; па магчымасці запісвайце праз VoIP

Дыктоўка аўтаматычна аптымізуе аўдыё

Сэрвіс Дыктоўка аўтаматычна выконвае асноўныя крокі падрыхтоўкі пры загрузцы файла:

Платформа спраўляецца нават з неідэальнымі запісамі — тэлефоннымі званкамі, запісамі нарад у шумных памяшканнях, галасавымі паведамленнямі. Але чым лепшая зыходная якасць, тым дакладнейшы вынік. Уклаўшы 10 хвілін у падрыхтоўку, вы атрымаеце значна дакладнейшую транскрыпцыю.


Чэкліст перад запісам

Раздрукуйце або захавайце — правярайце перад кожным важным запісам:

  1. Мікрафон падключаны і абраны як прылада ўводу ў сістэме
  2. Тэставы запіс зроблены — праслухайце 10 секунд, пераканайцеся ў чысціні гуку
  3. Памяшканне ціхае — вокны зачынены, тэхніка выключана
  4. Адлегласць да мікрафона — 15-30 см (або петлічка на 15-20 см ад рота)
  5. Узровень запісу — пікі ў дыяпазоне -12 да -6 dB, не кранаюцца чырвонай зоны
  6. Фармат запісу — WAV або FLAC (не MP3 128 kbps)
  7. Месца на дыску дастаткова — WAV займае ~10 МБ/хв
  8. Папрасіце ўдзельнікаў не перабіваць і гаварыць выразна
  9. Поп-фільтр усталяваны (для настольнага мікрафона)
  10. Запіс запушчаны — гучыць відавочна, але забываецца часцей, чым здаецца

Вынік

Палепшыць якасць аўдыё для транскрыпцыі — гэта не ракетабудаванне. Добры мікрафон за 65-300 рублёў, ціхае памяшканне і правільныя налады запісу даюць 80% выніку. Астатнія 20% — апрацоўка ў Audacity або Adobe Enhance.

Загружайце падрыхтаванае аўдыё ў Дыктоўку — і атрымлівайце транскрыпцыю, якую амаль не трэба рэдагаваць.

FAQ

Які мікрафон лепш за ўсё падыходзіць для транскрыбацыі?

Для запісу за сталом аптымальны USB-мікрафон: бюджэтны Fifine K669 (~65 руб.) або Blue Yeti (~300 руб.) для максімальнай якасці. Для інтэрв'ю — петлічка Boya BY-M1 (~40 руб.). Для нарад — спікерфон Jabra Speak 510. Нават бюджэтны знешні мікрафон кардынальна лепшы за ўбудаваны ў ноўтбук.

Як прыбраць шум з аўдыёзапісу перад транскрыпцыяй?

У бясплатным Audacity: знайдзіце ўчастак цішыні з фонавым шумам, вылучыце яго, ужыце «Атрымаць профіль шуму», потым вылучыце ўвесь запіс і запусціце «Шумапрыглушэнне» (12–18 дБ). Прасцейшы варыянт — Adobe Podcast Enhance (бясплатны анлайн-інструмент), які аўтаматычна чысціць гук з дапамогай ШІ.

Якая мінімальная якасць аўдыё патрэбна для добрай транскрыпцыі?

Для дакладнасці 5–8% WER (мінімальнае рэдагаванне) дастаткова запісу ў ціхім памяшканні са знешнім мікрафонам на адлегласці 15–30 см. Фармат — WAV або MP3 320 kbps. Пры шумным запісе WER расце да 15–25%, а пры дрэннай якасці (рэха, ціхі голас) — да 25–40%, што патрабуе сур'ёзнага ручнога рэдагавання.

У якім фармаце лепш за ўсё запісваць аўдыё для транскрыбацыі?

Аптымальныя параметры: mono, 16 кГц, 16-bit WAV. Mono лепш за стэрэа — мадэлі распазнавання працуюць з аднаканальным сігналам, голас мацнейшы адносна фону, файл удвая меншы. Пазбягайце MP3 128 kbps і ніжэй — прыкметная страта якасці.

Як палепшыць запіс з дапамогай FFmpeg?

FFmpeg прапануе фільтр afftdn для адаптыўнага шумапрыглушэння на аснове FFT. Для больш агрэсіўнага шумапрыглушэння павялічце параметр noise reduction да 30–40. Фільтр silenceremove выдаляе доўгія паўзы, што эканоміць час апрацоўкі. Для канвертацыі ў аптымальны фармат: mono, 16 кГц, 16-bit.