Усі статті

Транскрибація аудіо: застосунки та інструменти

·18 хв читання

Повний огляд застосунків та інструментів для транскрибації мовлення: десктопні GUI на базі Whisper, self-hosted рішення, відеоредактори із вбудованою транскрибацією, браузерні сервіси та мобільні застосунки для iOS і Android. Усі варіанти — від повністю безкоштовних open-source до платних із розширеними можливостями.


Десктопні застосунки: Whisper з людським обличчям

Для тих, кому потрібен простий GUI без командного рядка, виросла ціла екосистема десктопних застосунків на базі Whisper. Усі вони працюють офлайн, дані не залишають комп'ютер — детальніше про це у статті «Локальна vs хмарна транскрибація».

Handy (handy.computer) — безкоштовний open-source застосунок для macOS/Windows/Linux з унікальним підходом: push-to-talk диктування прямо в будь-яке текстове поле. Натиснув гарячу клавішу → сказав → відпустив → текст вставлено в активне вікно. Ідеально для заміни клавіатури при наборі тексту, листуванні та нотатках. Побудовано на Whisper, повністю офлайн і приватно. Спонсорується Wordcab та Bolt AI.

Vibe (thewh1teagle.github.io/vibe) — одне з найкращих безкоштовних open-source рішень, 5 000+ зірок на GitHub. Кросплатформний (Windows, macOS, Linux), побудований на Tauri + whisper.cpp. Підтримує GPU-прискорення (NVIDIA, AMD, Apple Silicon через Vulkan/CoreML), 90+ мов, діаризацію спікерів, експорт у SRT/VTT/TXT/DOCX/PDF/JSON, транскрибацію YouTube-посилань через yt-dlp, запис з мікрофона, сумаризацію через Claude/Ollama, HTTP API з документацією Swagger і навіть CLI-режим. Найфункціональніший безкоштовний десктоп-клієнт на поточний момент. Інсталятор ~24 МБ, після встановлення ~87 МБ + модель.

Buzz (buzzcaptions.com) — безкоштовний open-source GUI для Whisper. Кросплатформний, підтримує кілька бекендів (whisper.cpp, faster-whisper), розділення спікерів, експорт субтитрів. Мінімалістичніший за Vibe, але стабільний і перевірений.

MacWhisper / Whisper Transcription (App Store, macupdate.com) — нативний macOS-застосунок. Безкоштовна версія включає моделі Base та Small. Pro-підписка: $4.99/тижд, $8.99/міс, $29.99/рік, або $79.99 назавжди. Pro відкриває моделі Medium та Large, пакетну обробку, запис системного аудіо (дзвінки Zoom, подкасти), розділення спікерів, Reader Mode, інтеграцію з ChatGPT для сумаризації. Найвідполірованіший Whisper-інтерфейс для Mac. Рейтинг ~4.0 на MacUpdate.

Whisper Notes (whispernotes.app) — $6.99 одноразово для iOS + Mac. 60 000+ користувачів. Ключова фішка — system-wide диктування: затиснув Fn у будь-якому застосунку → сказав → відпустив → текст вставлено. Імпорт аудіо/відео файлів із потоковим результатом. Повністю офлайн, використовує Whisper Large V3 Turbo на Apple Silicon.

WhisperDesktop (github.com/Const-me/Whisper) — безкоштовний Windows-застосунок із GPU-прискоренням через DirectCompute/GPGPU. Значно швидший за оригінальний Whisper: 3:24 хв аудіо за 19 секунд на GeForce 1080Ti (проти 45 сек у PyTorch+CUDA). Транскрибація файлів + запис з мікрофона в реальному часі. Рекомендована модель: ggml-medium.bin (~1.42 ГБ).

WhisperUI (Microsoft Store) — безкоштовний Windows-застосунок. GPU-прискорення через CPU, OpenCL, NVIDIA CUDA 11/12. Повністю офлайн, експорт субтитрів у SRT/VTT, пакетна обробка.

Aiko (~$5.99, iOS/Mac) — максимально простий Whisper-застосунок для Apple. Drag-and-drop аудіофайлу → текст. 100% on-device, ідеально для тих, хто хоче транскрибацію однією кнопкою без налаштувань.

Whisper Transcription (iOS App Store, freemium) — мобільний застосунок із on-device та хмарним режимом. Share Extension дозволяє транскрибувати голосові з iMessage, WhatsApp, Voice Memos. Потрібен iPhone 13+ для on-device. AI-сумаризація, чат із транскриптом. Рейтинг 4.6+.


Self-hosted рішення: для власного сервера

Для тих, хто хоче розгорнути повноцінний сервіс транскрибації на своєму сервері або в локальній мережі.

Whishper (github.com/pluja/whishper) — повноцінна self-hosted платформа з веб-інтерфейсом. Включає faster-whisper для транскрибації, LibreTranslate/Argos Translate для перекладу субтитрів (60+ мов), вбудований редактор субтитрів, експорт у JSON/TXT/VTT/SRT. Розгортається через Docker Compose (5 контейнерів: API, бекенд, фронтенд, переклад, MongoDB). 100% офлайн після встановлення. Чудовий вибір для команд, яким потрібен приватний сервіс без хмари.

WhisperLive (github.com/collabora/WhisperLive, Collabora) — open-source рішення для транскрибації в реальному часі. WebSocket-сервер: підключаєш мікрофон або файл → отримуєш текст із мінімальною затримкою. Підтримує бекенди faster-whisper, TensorRT та OpenVINO. Python-клієнт та JS-демо. Підходить для live-транскрибації зустрічей та конференцій.

WhisperTranscribe (whispertranscribe.com) — хмарний сервіс із десктопним застосунком для Windows. Безкоштовний тріал 60 хвилин без введення картки. Використовує Whisper + AssemblyAI. Окрім транскрибації: 57+ типів контенту з одного запису (пости, самарі, маркетингові матеріали), AI-тренування на стиль користувача, транскрибація YouTube/Vimeo за посиланням, подкастів з бібліотеки 2.5 млн. 55+ мов. Підписка ~$15/міс.


Відеоредактори із вбудованою транскрибацією

Окрема категорія — відеоредактори, які вміють транскрибувати аудіо як частину робочого процесу.

CapCut (ByteDance/TikTok) — безкоштовний відеоредактор із потужною функцією Auto Captions. Підтримує 100+ мов, включно з українською. Транскрибує мовлення в субтитри, дозволяє редагувати відео на основі тексту (transcript-based editing), перекладати субтитри, створювати двомовні субтитри. Веб-версія, десктоп (Windows/Mac), мобільні застосунки. Безкоштовно. Обмеження: орієнтований на субтитри, а не повноцінні документи-транскрипти.

Descript — потужний аудіо/відеоредактор із transcript-based editing (видаляєш слово з тексту → воно вирізається з відео). Не підтримує українську — лише латиниця. Згадую для повноти картини.

DaVinci Resolve (Blackmagic Design) — професійний відеоредактор із вбудованою транскрибацією через Whisper. Підтримує багато мов, але якість поступається спеціалізованим інструментам. Безкоштовна версія доступна. Транскрипція в таймлайні для text-based editing.

Subtitle Edit (nikse.dk) — безкоштовний open-source редактор субтитрів для Windows (частково Linux) з інтегрованою транскрибацією через Whisper. Підтримує 7+ Whisper-рушіїв (OpenAI Whisper, Purfview's Faster-Whisper-XXL, CPP, CPP cuBLAS, Const-me, CTranslate2, stable-ts, WhisperX), пакетну обробку, автопереклад, 100+ мов. Найпотужніший безкоштовний інструмент для створення субтитрів з аудіо. На RTX A6000 — 2 години за кілька хвилин.

Subper / SubtitleWhisper (subtitlewhisper.com) — онлайн-генератор субтитрів на Whisper + Silero VAD. Онлайн-редактор субтитрів. Безкоштовний план обмежений, платний від $9.99/міс. GPT-інтеграція для пунктуації та параграфування.


Браузерні розширення та онлайн-інструменти

Transkriptor — веб-застосунок + розширення для Chrome/Firefox + iOS/Android. Підтримує багато мов, автоматична діаризація, експорт у TXT/SRT/DOCX. Безкоштовний тріал, далі $9.99–30/міс. Заявляє 99% точність.

TurboScribe (turboscribe.ai) — веб-сервіс із 3 безкоштовними транскрибаціями на день (до 30 хв кожна). Платні плани від ~$10/міс. Whisper під капотом.

Wonderscribe — повністю безкоштовний веб-сервіс, але з підвищеним відсотком помилок (~16% WER). Для чорнової розшифровки.

HuggingFace Spaces (huggingface.co/spaces/openai/whisper) — безкоштовне Whisper-демо від OpenAI. Завантажуєте файл → отримуєте текст. Безкоштовно, але з обмеженнями та чергами.


Мобільні застосунки

iOS

ЗастосунокЦінаОфлайнФішка
Aiko~$5.99 одноразово100%Найпростіший drag-and-drop
Whisper Notes$6.99 одноразово100%System-wide диктування через Fn
Whisper TranscriptionFreemium (підписка)iPhone 13+AI-сумаризація, чат із транскриптом
Just Press Record~$4.99ЧастковоОдин дотик, Apple Watch, iCloud sync
Whisper: Speech to TextFreemiumВаріюєтьсяПростий інтерфейс для запису+транскрибації

Android

ЗастосунокЦінаОфлайнФішка
Voice NotebookБезкоштовно + PremiumЗ мовним пакетомНайкраще диктування, рейтинг 4.8
SpeechnotesБезкоштовно, 5М+ завантаженьОбмеженоЗапатентована клавіатура пунктуації
SpeechTexterБезкоштовно, 80+ мовНіБазовий voice-to-text
Notely VoiceБезкоштовно, без рекламиТакWhisper на смартфоні для довгих нотаток

Кросплатформні

ЗастосунокПлатформиЦінаБагатомовність
TranskriptoriOS/Android/Web/Chrome/Firefox$9.99–30/місТак
NottaiOS/Android/WebБезкоштовно 120 хв/міс (3 хв/розмова)Спірна якість
VomoiOS/AndroidFreemiumГолосові нотатки + AI

Зведена таблиця: вибір за сценарієм використання

СценарійНайкращий вибірЦінаБагатомовність
Швидке диктування в будь-яке полеHandy, Whisper NotesБезкоштовно / $6.99Whisper
Транскрибація файлів офлайнVibe, BuzzБезкоштовноWhisper
macOS відполірований GUIMacWhisper Pro$79.99 назавждиWhisper
Windows GPU-прискоренняWhisperDesktop, WhisperUIБезкоштовноWhisper
Субтитри для відеоSubtitle Edit + WhisperБезкоштовноWhisper
Відеоредактор + субтитриCapCutБезкоштовноТак
Self-hosted серверWhishperБезкоштовноWhisper
Реальний час (live)WhisperLiveБезкоштовноWhisper
Людська транскрибаціяGoTranscript$1.20–2.75/хвНосії
Мобільне iOSAiko~$5.99Whisper
Мобільне AndroidVoice NotebookБезкоштовноGoogle STT
Контент із записівWhisperTranscribe~$15/міс57+ форматів

FAQ

Який безкоштовний застосунок найкраще підходить для транскрибації?

Для десктопу найкращі безкоштовні варіанти — Vibe та Buzz, обидва працюють на базі Whisper і повністю офлайн. Для онлайн-транскрибації без встановлення — TurboScribe (3 файли на день до 30 хвилин безкоштовно) та GigaChat від Sber (завантаження аудіо до 2 годин із діаризацією та підсумком).

Чи можна транскрибувати аудіо офлайн без інтернету?

Так. Усі десктопні застосунки на базі Whisper (Vibe, Buzz, MacWhisper, WhisperDesktop) працюють повністю офлайн після завантаження моделі. Дані не залишають комп'ютер, що гарантує приватність.

Які застосунки найкраще розпізнають російську мову?

Найвищу точність для російської забезпечує GigaAM від Sber (8,4 % WER). Серед безкоштовних споживчих інструментів — GigaChat (завантаження аудіо) та Yandex SpeechKit (enterprise API, 95–97 % точності). Застосунки на Whisper дають прийнятну якість (~84 % точності для російської).

Який мобільний застосунок обрати для транскрибації на телефоні?

На iOS найкращі варіанти — Aiko (~$5.99, повністю офлайн) та Whisper Notes ($6.99, системна диктовка). На Android лідирує Voice Notebook (безкоштовно, рейтинг 4,8, найкраща російська диктовка через Google STT).

Як розгорнути власний сервер транскрибації?

Найкращий self-hosted варіант — Whishper: повноцінна платформа з веб-інтерфейсом, розгортається через Docker Compose, включає транскрибацію через faster-whisper, переклад субтитрів та вбудований редактор. Для транскрибації в реальному часі підійде WhisperLive від Collabora.