Транскрибация для русскоязычного рынка: полный гид по инструментам в 2025–2026
GigaAM от Sber доминирует в распознавании русской речи, опережая Whisper от OpenAI почти вдвое по точности, а GigaChat предлагает на удивление мощную бесплатную транскрибацию. Рынок транскрибации для русскоязычных пользователей значительно повзрослел: open-source модели, обученные на русском, теперь превосходят большинство коммерческих мультиязычных сервисов; крупные западные платформы вроде Google Meet и Microsoft Teams полностью поддерживают русские субтитры; а растущая экосистема отечественных сервисов (Yandex SpeechKit, SaluteSpeech, Войси) создана специально для СНГ-аудитории. Apple остаётся заметным аутсайдером — транскрибация Voice Memos по-прежнему не поддерживает русский. Этот гид охватывает все категории инструментов транскрибации, доступных русскоязычным пользователям — от бесплатных Telegram-ботов до enterprise API — с честной оценкой качества распознавания русского языка для каждого.
Разрыв в точности: почему выбор модели важнее бренда
Не все заявления о «поддержке русского» одинаковы. Авторитетный бенчмарк Alpha Cephei 2025 для русского ASR, протестированный на 11 разнообразных русскоязычных датасетах (аудиокниги, колл-центры, ТВ-трансляции, медицинская речь), выявил существенные различия. GigaAM2 от Sber достигает 8.4% WER (Word Error Rate), что делает его безоговорочным лидером. Vosk следует с 11.0% WER, тогда как OpenAI Whisper Large V3 отстаёт с 16.2% WER — примерно вдвое хуже GigaAM. NeMo Canary V2 от NVIDIA, несмотря на новизну, показывает разочаровывающие 20.2% именно на русском.
Это означает, что инструмент на GigaAM ошибётся примерно в 1 из 12 слов, тогда как инструмент на Whisper — в 1 из 6. На чистой речи (аудиокниги) все модели работают хорошо (Vosk достигает поразительных 1.2% WER). Настоящая разница проявляется на шумном, реальном аудио: записи колл-центров, совещания с перекрёстными разговорами, телефонное качество. Здесь GigaAM и Vosk значительно опережают Whisper.
| Модель | Средний WER (русский) | Лучшее применение |
|---|---|---|
| GigaAM2 CTC+LM (Sber) | 8.4% | Лучшая общая точность |
| Vosk 0.54 (Alpha Cephei) | 11.0% | Лёгкий офлайн/edge |
| T-one (Tinkoff) | 12.8% | Стриминг в реальном времени |
| Whisper Podlodka Turbo | 13.8% | Дообученный Whisper |
| NeMo FastConformer RU | 14.0% | Экосистема NVIDIA GPU |
| Whisper Large V3 | 16.2% | Мультиязычный универсал |
| NeMo Canary V2 | 20.2% | Перевод EU-языков |
Платные международные сервисы: кто реально работает с русским
Среди десятка крупных платных платформ транскрибации лишь немногие предлагают по-настоящему хорошую поддержку русского. Otter.ai и Descript вообще не поддерживают русский — Otter выдаёт бессмыслицу на русском аудио, а Descript явно исключает все языки с нелатинским алфавитом. Notta заявляет русский среди 58 языков, но независимое тестирование в 2026 году показало, что она выдаёт бессвязный текст, если язык не выбран заранее вручную, и даже тогда качество ненадёжно.
Сильнейшие платные варианты для русского делятся на два уровня. GoTranscript лидирует по точности со 100% человеческой транскрибацией носителями русского языка с точностью 99.4%, по цене $1.20–2.75 за минуту и сроками 1–3 дня. Happy Scribe предлагает и AI (~85% точности), и человеческую транскрибацию (99% точности, $1.75–2.00/мин) с выделенной страницей для русского языка и поддержкой региональных акцентов. Sonix выделяется прозрачной ценой $10/час с заявленной точностью 85–99%.
Для разработчиков важны API-сервисы. Speechmatics поддерживает on-premise развёртывание (важно для суверенности данных) и предлагает щедрый бесплатный тариф — 8 часов/мес. AssemblyAI покрывает русский в модели Universal-2 на 99 языков за $0.15–0.27/час с диаризацией на 95 языках. Deepgram предлагает самый низкий API-прайс (~$0.46/час), но бенчмарки указывают, что точность русского (~8% WER) немного уступает конкурентам. Maestra — самый функциональный вариант: транскрибация, перевод через DeepL, AI-дубляж с клонированием голоса и живые субтитры — всё с поддержкой русского, от $10/час.
| Сервис | Качество русского | Цена | Лучшее применение |
|---|---|---|---|
| GoTranscript | Человеческая, 99.4% | $1.20–2.75/мин | Максимальная точность |
| Happy Scribe | AI + человек | $17–49/мес + $2/мин | Гибридные задачи |
| Sonix | AI, 85-99% | $10/час | Прозрачное AI-ценообразование |
| Speechmatics | API | $0.30–0.70/час | Enterprise, on-prem |
| Maestra | Всё в одном | $10/час–$359/мес | Мультиязычный всё-в-одном |
| AssemblyAI | API | $0.15–0.27/час | Интеграция для разработчиков |
| Transkriptor | Бюджетный | $9.99–30/мес | Бюджетный вариант |
| Trint | Журналистика | $52–100/мес | Журналистские задачи |
Бесплатные варианты, которые реально работают с русским
Самый мощный бесплатный инструмент — OpenAI Whisper, установленный локально: неограниченный, полностью приватный, с приемлемым качеством русского на модели large-v3. Нетехнические пользователи могут воспользоваться десктопными GUI: Buzz (бесплатный, кроссплатформенный, несколько бэкендов), Vibe (бесплатный, простой, офлайн) или MacWhisper (бесплатная версия с малыми моделями; $69 за Pro навсегда). Все работают офлайн после скачивания модели.
Для онлайн-транскрибации без установки: TurboScribe — 3 бесплатных транскрибации в день (до 30 мин каждая), русский в списке языков с высокой точностью. Speech2Text.ru — 3 бесплатных часа с диаризацией спикеров. Any2Text.ru — 15 минут без регистрации + 60 при регистрации. Wonderscribe — полностью бесплатный, но с повышенным процентом ошибок (~16% WER).
В экосистеме Telegram выделяется Voxbrief (@VidVKYT2AudioBot) — бесплатный бот для извлечения аудио из видео YouTube и ВКонтакте: пересылаете ссылку или файл — получаете аудиодорожку, готовую для транскрибации в любом сервисе. Встроенная транскрибация Telegram Premium использует Google Speech Recognition, поддерживает русский — бесплатным пользователям доступно 2 транскрибации в неделю, Premium-подписчикам без ограничений.
GigaChat от Sber заслуживает особого внимания. Обновление 2.0 (март 2025) добавило нативную обработку аудио — загружаете файл до 2 часов и получаете транскрипцию с диаризацией, умной пунктуацией и AI-саммари. Доступен через веб (giga.chat), Telegram-бот и VK MAX, без подписки и VPN.
- Лучший бесплатный + приватный: Whisper локально через Buzz или Vibe (безлимитный, офлайн, ~84% точности для русского) — подробнее о плюсах и минусах локальной vs облачной транскрипции
- Лучший бесплатный + без усилий: GigaChat (загрузил аудио — получил транскрипт + саммари, бесплатно)
- Лучший бесплатный Telegram-бот: Voxbrief (@VidVKYT2AudioBot) (извлечение аудио из видео YouTube/VK для транскрибации, бесплатно)
- Лучший бесплатный веб-сервис: TurboScribe (3 файла/день по 30 мин, на базе Whisper)
Крупные технологические платформы: где русская транскрибация
Apple — худший по поддержке русского во всей своей экосистеме. Транскрибация Voice Memos (появилась в iOS 18) поддерживает только 10 языков — русского среди них нет. Live Captions ограничены английским (США и Канада). Функции Apple Intelligence имеют те же ограничения. Единственный плюс — Siri dictation, поддерживающая русский с iOS 8.3 (2015) и работающая неплохо на чистой речи, хотя пользователи отмечают баги с возвратом кириллического текста к латинице.
Google предлагает самую широкую поддержку русского. Google Meet поддерживает русские субтитры с декабря 2022, сейчас покрывая 87 языков для субтитров и 69+ для переводных субтитров (платные Workspace-подписки). Google Docs Voice Typing работает с русским и голосовыми командами пунктуации. YouTube предоставляет русские автосубтитры с 2012 года с переменным качеством (~60–70%). Google Cloud Speech-to-Text обеспечивает enterprise-уровень распознавания русского.
Microsoft не уступает Google. Транскрибация и живые субтитры Teams полностью поддерживают русский среди 60+ языков, переводные субтитры доступны через Teams Premium. Диктовка в Word/Office работает с русским. Azure Speech-to-Text обеспечивает полную поддержку русского: стриминг, пакетная обработка, кастомные модели. Пробел: Windows Voice Access и новый AI Interpreter в Teams (изначально 9 языков) пока не поддерживают русский.
Zoom поддерживает русский для автосубтитров (49 языков) и переводных субтитров (36 языковых пар, $5/мес). Однако пользователи отмечают, что качество переводных русских субтитров «неадекватное» — Zoom официально ответил, что качество «на уровне или лучше конкурентов» и постоянно улучшается.
Российские и СНГ-сервисы: преимущество домашнего поля
Российский рынок породил несколько сильных отечественных платформ, обученных специально на русских речевых паттернах, акцентах и телефонном качестве аудио.
Yandex SpeechKit остаётся золотым стандартом enterprise-распознавания русской речи с заявленной точностью 95–97% и работой в Алисе. Только API, без потребительского продукта, цена ~₽0.64/мин для синхронного распознавания. Поддерживает on-premise через SpeechKit Hybrid — критично для организаций с требованиями к суверенности данных. Языки ограничены русским, английским и турецким.
Sber SaluteSpeech — самый доступный российский enterprise-сервис с бесплатным тарифом 100 минут в месяц для физлиц (некоммерческое использование). Десктопное приложение для Windows и macOS объединяет распознавание, синтез и GigaChat. Enterprise-продукт SaluteSpeech Insights обеспечивает аналитику колл-центров.
Tinkoff VoiceKit (теперь T-Bank) — самый дешёвый российский API по цене ~₽0.40–0.45/мин, обученный на терабайтах данных колл-центров. Заявляет ~95% точности и бесплатен для образовательных учреждений.
VK Звонки запустили бесплатную встроенную транскрибацию в августе 2023 на собственной нейросети — текст с таймкодами и метками спикеров отправляется в чат звонка как .txt файл. Пока только русский.
Среди потребительских российских сервисов выделяется Войси — 98% заявленной точности, 16 форматов вывода (стенограмма, протокол встречи, задачи, саммари, субтитры), боты в Telegram, VK и MAX — 45 бесплатных минут при первом использовании. Guru Scribe — впечатляющая скорость: 27 секунд на час аудио без диаризации, от ₽4/мин с 60 бесплатными минутами. Teamlogs подключается напрямую к Zoom, Google Meet и Яндекс Телемост для живой транскрибации, от ₽6/мин. MyMeet.ai фокусируется на транскрибации встреч с ~96% точностью и интегрируется со всеми основными платформами.
Open-source: GigaAM правит, но у Whisper есть экосистема
Для разработчиков open-source ландшафт предлагает лучшее соотношение качества и цены. GigaAM v3 (Sber, лицензия MIT) — безоговорочный лидер для транскрибации только русского: end-to-end модели с пунктуацией и нормализацией текста, обученные на 700 000 часов русской речи. Python API прост: установить gigaam, загрузить модель, вызвать transcribe(). Ограничение — только русский, без мультиязычности, и пока нет GUI-приложений.
Vosk (лицензия Apache 2.0) — лучший выбор для офлайн и edge-устройств. Русская модель достигает 11% WER даже на Raspberry Pi — малая модель всего ~50 МБ. Привязки для Python, Java, C#, JavaScript, Go и Rust, плюс Android и iOS SDK. Особая сила — аудиокниги и чистая речь, где достигается поразительные 1.2% WER.
Whisper и его производные предлагают лучшую мультиязычную гибкость. Хотя точность русского (~16% WER) уступает GigaAM и Vosk, он поддерживает 99 языков и породил богатую экосистему инструментов. faster-whisper работает ~4x быстрее с идентичной точностью на INT8/FP16. whisper.cpp позволяет работать только на CPU на Apple Silicon, x86 и мобильных устройствах. WhisperX добавляет пословные таймстампы и диаризацию через pyannote-audio. Дообученные русские модели на HuggingFace (antony66/whisper-large-v3-russian) снижают WER с 16.2% до ~6.4%.
Для нетехнических пользователей лучшие десктопные GUI: Buzz (бесплатный, кроссплатформенный, faster-whisper/whisper.cpp, разделение спикеров), MacWhisper ($69 Pro навсегда, пакетная обработка, запись системного аудио) и Vibe (бесплатный, простой, ~5 000 звёзд на GitHub). Все работают офлайн после скачивания модели.
Мобильные приложения: лучшие варианты для iOS и Android
На iOS доминируют приложения на базе Whisper. Aiko (~$5.99, разовая покупка) работает полностью на устройстве — идеален для тех, кому важна приватность. Whisper Notes ($4.99–6.99, разово) добавляет запись с экрана блокировки, пользовательский словарь и Whisper Large V3 Turbo на Apple Silicon. Whisper Transcription (freemium) предлагает облачный и on-device режимы с AI-саммари, рейтинг 4.6+. Just Press Record ($4.99) — простейший workflow: одно нажатие для записи с Apple Watch с автоматической транскрибацией через iCloud.
На Android лидирует Voice Notebook (бесплатно с рекламой, Premium) — лучшее приложение для русской диктовки, Google Speech Recognition с офлайн-поддержкой через скачиваемые языковые пакеты, рейтинг 4.8/5. Speechnotes (бесплатно, 5М+ загрузок) — запатентованная клавиатура для пунктуации без остановки диктовки. SpeechTexter (бесплатно, 80+ языков) — более простая альтернатива.
Кроссплатформенные: Transkriptor (iOS/Android/Web, пробный период, затем ~$4.99/мес) и Notta (iOS/Android/Web, бесплатно 120 мин/мес при ограничении 3 мин/разговор) — облачная транскрибация с диаризацией, хотя качество русского у Notta вызывает вопросы.
| Приложение | Платформа | Цена | Офлайн | Качество русского |
|---|---|---|---|---|
| Aiko | iOS/Mac | ~$5.99 разово | 100% | Хорошее (Whisper) |
| Whisper Notes | iOS/Mac | $4.99–6.99 разово | 100% | Хорошее (Whisper) |
| Whisper Transcription | iOS/Mac | Freemium | iPhone 13+ | Хорошее (Whisper) |
| Voice Notebook | Android | Бесплатно/Premium | С пакетом | Хорошее (Google STT) |
| Speechnotes | Android | Бесплатно/Premium | Ограниченно | Хорошее (Google STT) |
| Just Press Record | iOS | ~$4.99 разово | Частично | Среднее |
Десктопные приложения: Whisper с человеческим лицом
Для тех, кому нужен простой GUI без командной строки, выросла целая экосистема десктопных приложений на базе Whisper. Все они работают офлайн, данные не покидают компьютер.
Handy (handy.computer) — бесплатное open-source приложение для macOS/Windows/Linux с уникальным подходом: push-to-talk диктовка прямо в любое текстовое поле. Нажал хоткей, сказал, отпустил — текст вставлен в активное окно. Идеально для замены клавиатуры при наборе текста, переписке и заметках. Построено на Whisper, полностью офлайн и приватно.
Vibe (thewh1teagle.github.io/vibe) — одно из лучших бесплатных open-source решений с 5 000+ звёзд на GitHub. Кроссплатформенный (Windows, macOS, Linux), построен на Tauri + whisper.cpp. Поддерживает GPU-ускорение (NVIDIA, AMD, Apple Silicon), 90+ языков, диаризацию спикеров, экспорт в SRT/VTT/TXT/DOCX/PDF, транскрибацию YouTube-ссылок через yt-dlp, запись с микрофона, суммаризацию через Claude/Ollama и даже HTTP API. Самый функциональный бесплатный десктоп-клиент.
Buzz (buzzcaptions.com) — ещё один бесплатный open-source GUI для Whisper. Кроссплатформенный, поддерживает несколько бэкендов (whisper.cpp, faster-whisper), разделение спикеров, экспорт субтитров. Более минималистичный, чем Vibe, но стабильный и проверенный.
MacWhisper / Whisper Transcription (App Store) — нативное macOS-приложение с бесплатной версией (модели Base и Small) и Pro-подпиской ($8.99/мес или $79.99 навсегда). Pro открывает модели Medium и Large, пакетную обработку, запись системного аудио (Zoom-звонки, подкасты), разделение спикеров и Reader Mode. Самый полированный Whisper-интерфейс для Mac.
Whisper Notes (whispernotes.app) — $6.99 единоразово для iOS + Mac. 60 000+ пользователей. Ключевая фишка — system-wide dictation: зажал Fn в любом приложении, сказал, отпустил — текст вставлен. Полностью офлайн, использует Whisper Large V3 Turbo на Apple Silicon.
WhisperDesktop (github.com/Const-me/Whisper) — бесплатное Windows-приложение с GPU-ускорением через DirectCompute. Быстрее оригинального Whisper: 3:24 аудио обрабатываются за 19 секунд на GeForce 1080Ti (против 45 сек у PyTorch+CUDA). Поддерживает транскрибацию файлов и запись с микрофона в реальном времени.
WhisperUI (Microsoft Store) — бесплатное Windows-приложение с поддержкой GPU через CUDA 11/12 и OpenCL. Полностью офлайн, субтитры в SRT/VTT, пакетная обработка.
Aiko (~$5.99, iOS/Mac) — максимально простое Whisper-приложение для Apple. Drag-and-drop аудиофайла → текст. Полностью on-device, идеально для тех, кто хочет транскрибацию одной кнопкой без настроек.
Self-hosted решения: для своего сервера
Для тех, кто хочет развернуть полноценный сервис транскрибации на своём сервере (или в локальной сети), есть несколько мощных open-source проектов.
Whishper (github.com/pluja/whishper) — полноценная self-hosted платформа с веб-интерфейсом. Включает faster-whisper для транскрибации, LibreTranslate для перевода субтитров (60+ языков), встроенный редактор субтитров, экспорт в JSON/TXT/VTT/SRT. Разворачивается через Docker Compose. 100% офлайн после установки. Отличный выбор для команд, которым нужен приватный сервис транскрибации без облака.
WhisperLive (github.com/collabora/WhisperLive) — open-source решение для транскрибации в реальном времени. Работает как сервер с WebSocket-клиентами: подключаешь микрофон или файл — получаешь текст с минимальной задержкой. Поддерживает faster-whisper, TensorRT и OpenVINO бэкенды. Подходит для live-транскрибации встреч и конференций.
WhisperTranscribe (whispertranscribe.com) — облачный сервис с бесплатным триалом 60 минут. Использует Whisper + AssemblyAI. Помимо транскрибации, генерирует 57+ типов контента из одной записи (посты, саммари, маркетинговые материалы). Десктопное Windows-приложение. Подписка от ~$15/мес.
Видеоредакторы со встроенной транскрибацией
Отдельная категория — видеоредакторы, которые умеют транскрибировать аудио как часть рабочего процесса.
CapCut (ByteDance/TikTok) — бесплатный видеоредактор с мощной функцией Auto Captions. Поддерживает 100+ языков включая русский. Транскрибирует речь в субтитры, позволяет редактировать видео на основе текста (transcript-based editing), переводить субтитры между языками. Веб-версия, десктоп (Windows/Mac), мобильные приложения. Бесплатно, но ориентирован на субтитры, а не полноценные транскрипты.
Descript — мощный аудио/видеоредактор с transcript-based editing (удаляешь слово из текста — оно вырезается из видео). Однако не поддерживает русский — только латиница.
DaVinci Resolve (Blackmagic) — профессиональный видеоредактор со встроенной транскрибацией через Whisper. Поддерживает русский, но качество уступает специализированным инструментам. Бесплатная версия доступна.
Subtitle Edit (nikse.dk) — бесплатный open-source редактор субтитров для Windows с интегрированной транскрибацией через Whisper. Поддерживает 7 Whisper-движков (OpenAI, Faster-Whisper, CPP, Const-me, WhisperX и др.), пакетную обработку, перевод, 100+ языков. Мощнейший бесплатный инструмент для создания субтитров из аудио.
Браузерные расширения и онлайн-инструменты
Transkriptor — доступен как веб-приложение, расширение для Chrome/Firefox, мобильное приложение (iOS/Android). Поддерживает русский, автоматическая диаризация, экспорт в TXT/SRT/DOCX. Бесплатный триал, далее $9.99–30/мес. Заявляет 99% точность, но для русского реальная точность ниже.
TurboScribe (turboscribe.ai) — веб-сервис с 3 бесплатными транскрибациями в день (до 30 мин каждая). Русский в списке языков с высокой точностью. Платные планы от $10/мес снимают лимиты. Использует Whisper под капотом.
Wonderscribe — полностью бесплатный веб-сервис, но с более высоким процентом ошибок (~16% WER). Подходит для черновой расшифровки, когда точность не критична.
HuggingFace Spaces — OpenAI разместил бесплатный Whisper-демо на huggingface.co/spaces/openai/whisper. Загружаете файл, получаете текст. Бесплатно, но с ограничениями по длине и очередями.
Нишевые и узкоспециализированные инструменты
Vomo (vomo.ai) — мобильное приложение (iOS/Android) для голосовых заметок с AI-транскрибацией. Ориентировано на personal productivity: записал мысль — получил структурированную заметку с action items. Поддерживает русский.
Subper / SubtitleWhisper (subtitlewhisper.com) — бесплатный онлайн-генератор субтитров на Whisper + Silero VAD. Фокус на субтитрах для видеоконтента. Есть онлайн-редактор. Бесплатный план ограничен, платный от $9.99/мес.
Just Press Record ($4.99, iOS) — минималистичное приложение Apple: одно нажатие для записи с Apple Watch или iPhone, автоматическая транскрибация через iCloud. Поддерживает русский через Apple Dictation. Идеально для быстрых голосовых заметок.
Voice Notebook (Android, бесплатно с рекламой) — лучшее Android-приложение для русской диктовки, рейтинг 4.8/5. Использует Google Speech Recognition с офлайн-поддержкой через загружаемые языковые пакеты.
Speechnotes (Android, бесплатно, 5М+ загрузок) — запатентованная клавиатура для пунктуации без остановки диктовки.
Сводная таблица: выбор по сценарию использования
| Сценарий | Лучший выбор | Цена | Русский |
|---|---|---|---|
| Быстрая диктовка в любое поле | Handy, Whisper Notes | Бесплатно / $6.99 | Whisper |
| Транскрибация файлов офлайн | Vibe, Buzz | Бесплатно | Whisper |
| macOS полированный GUI | MacWhisper Pro | $79.99 навсегда | Whisper |
| Windows GPU-ускорение | WhisperDesktop, WhisperUI | Бесплатно | Whisper |
| Максимальная точность RU | GigaChat (загрузить аудио) | Бесплатно | GigaAM |
| Telegram-бот | Voxbrief (@VidVKYT2AudioBot) | Бесплатно | YouTube, VK |
| Встречи Google Meet/Teams | Встроенные субтитры | В составе подписки | Да |
| Субтитры для видео | Subtitle Edit + Whisper | Бесплатно | Whisper |
| Видеоредактор + субтитры | CapCut | Бесплатно | Да |
| Self-hosted сервер | Whishper | Бесплатно | Whisper |
| Транскрибация в реальном времени | WhisperLive | Бесплатно | Whisper |
| Человеческая транскрибация | GoTranscript | $1.20–2.75/мин | Носители |
| Enterprise API (RU-оптимизированный) | Yandex SpeechKit | ~₽0.64/мин | 95-97% |
| Enterprise API (бюджетный) | Tinkoff VoiceKit | ~₽0.40/мин | ~95% |
| Русский сервис всё-в-одном | Войси | 45 мин бесплатно | 98% |
| Мобильное приложение iOS | Aiko | ~$5.99 | Whisper |
| Мобильное приложение Android | Voice Notebook | Бесплатно | Google STT |
Заключение: как выбрать подходящий инструмент
Рынок транскрибации для русскоязычных пользователей в 2025–2026 больше не страдает от разрыва в качестве с английским. Ключевой вывод: архитектура модели важнее названия бренда — инструменты на GigaAM дают почти вдвое лучшую точность для русского, чем инструменты на Whisper, хотя большинство международных сервисов используют именно Whisper.
Для обычных пользователей, которым нужна транскрибация без настройки, GigaChat (бесплатный, веб/Telegram) и Voxbrief (@VidVKYT2AudioBot) (бесплатный Telegram-бот для извлечения аудио из видео) — лучшие точки входа. Для профессионалов, которым нужна регулярная транскрибация встреч, Google Meet и Microsoft Teams нативно поддерживают русские субтитры, а Войси и MyMeet.ai добавляют AI-протоколы встреч. Для максимальной точности на важных записях — человеческая транскрибация GoTranscript (99.4%) или Happy Scribe с носителями языка остаются непревзойдёнными. Для разработчиков — GigaAM v3 (MIT, лучшая точность) для русского или Speechmatics/AssemblyAI API для мультиязычных задач.
Главный пробел — экосистема Apple: русскоязычные пользователи на iPhone и Mac не могут использовать транскрибацию Voice Memos, Live Captions и функции Apple Intelligence для русского. Пока Apple не расширит языковую поддержку, приложения на базе Whisper — Aiko и Whisper Notes — остаются лучшей альтернативой, работая полностью на устройстве с полной приватностью.
FAQ
Какая модель распознавания речи лучше всего работает с русским языком?
GigaAM2 от Sber — безоговорочный лидер с 8.4% WER (Word Error Rate) на бенчмарке Alpha Cephei 2025. Для сравнения: Whisper Large V3 от OpenAI показывает 16.2% WER — почти вдвое хуже. Vosk занимает второе место с 11.0% WER.
Чем GigaAM отличается от Whisper для русского языка?
GigaAM обучен на 700 000 часах русской речи и ошибается примерно в 1 из 12 слов, тогда как Whisper — в 1 из 6. Главный недостаток GigaAM — поддержка только русского языка, тогда как Whisper работает с 99 языками и имеет богатую экосистему GUI-приложений.
Какой самый дешёвый enterprise API для транскрибации русского?
Среди российских сервисов самый дешёвый — Tinkoff VoiceKit по цене ~₽0.40/мин с точностью ~95%. Yandex SpeechKit стоит ~₽0.64/мин при точности 95–97%. Среди международных — Deepgram (~$0.46/час) и AssemblyAI ($0.15–0.27/час).
Стоит ли заказывать человеческую транскрибацию вместо ИИ?
Для критически важных записей — да. GoTranscript обеспечивает 99.4% точности с носителями русского языка по цене $1.20–2.75/мин. ИИ-транскрибация (8–16% WER) подходит для большинства задач, но для юридических документов, медицинских записей и публикаций человеческая транскрибация надёжнее.
Какие бесплатные инструменты транскрибации работают с русским языком?
GigaChat от Sber — лучший бесплатный вариант без установки (веб, Telegram, файлы до 2 часов с диаризацией). Для офлайн-работы — Vibe и Buzz (бесплатные десктопные GUI на базе Whisper). Онлайн: TurboScribe (3 файла/день по 30 мин) и Any2Text.ru (15 минут без регистрации).