OpenAI Whisper: распознавание речи — модели, точность для русского языка

28 марта 2026 г.·20 мин чтения

Whisper от OpenAI — это open-source модель распознавания речи, которая изменила индустрию транскрибации. В этом руководстве мы разберём все версии Whisper, сравним размеры моделей, оценим точность для русского и других языков, рассмотрим варианты использования — от API до локальной установки — и покажем, где Whisper действительно силён, а где ему нужна помощь.

Что такое Whisper

Whisper — это модель автоматического распознавания речи (ASR), разработанная OpenAI и выпущенная в открытый доступ в сентябре 2022 года. Это не просто очередная STT-система: Whisper стал первой по-настоящему точной и при этом полностью бесплатной моделью для транскрибации речи.

Ключевые факты о Whisper:

Open-source: код и веса моделей доступны на GitHub под лицензией MIT
Обучена на 680 000 часов аудио из интернета — это примерно 77 лет непрерывного звука
Мультиязычная: поддерживает 99 языков, включая русский, украинский, казахский и другие
Мультизадачная: транскрибация, перевод на английский, определение языка, генерация таймкодов — всё в одной модели
Encoder-decoder архитектура: на базе Transformer, принимает 30-секундные сегменты мел-спектрограмм

До Whisper качественное распознавание речи было доступно только через платные облачные API (Google Cloud Speech, Amazon Transcribe, Azure Speech). Open-source альтернативы вроде DeepSpeech и Vosk заметно уступали по точности. Whisper изменил правила игры: теперь любой разработчик мог получить распознавание речи уровня коммерческих решений — бесплатно и с возможностью запуска на своём оборудовании.

Почему Whisper стал революцией

Главный секрет Whisper — объём и разнообразие обучающих данных. 680 000 часов аудио включали:

Подкасты и видео на десятках языков
Аудио с различным качеством записи
Речь с акцентами, диалектами и фоновым шумом
Пары «аудио — текст» с разных платформ

Этот подход «weak supervision» (слабая разметка) позволил модели научиться обрабатывать реальную речь, а не только идеальные лабораторные записи. В результате Whisper показывает стабильную точность даже на зашумлённом аудио, с акцентами и в условиях, далёких от идеальных.

История версий Whisper

Whisper v1 (сентябрь 2022)

Первый публичный релиз включал пять размеров модели: tiny, base, small, medium и large. Уже на старте large-модель показала точность, сопоставимую с коммерческими сервисами, а для английского языка — даже превосходящую некоторые из них. Модель сразу поддерживала 99 языков, хотя качество для отдельных языков сильно варьировалось.

Whisper v2 (декабрь 2022)

Всего через три месяца OpenAI выпустила обновлённую large-v2 модель. Основные улучшения:

Сниженный Word Error Rate (WER) на многих языках
Улучшенная обработка длинных аудиозаписей
Более стабильная работа с акцентами и диалектами
Меньше «галлюцинаций» — ситуаций, когда модель генерирует текст, которого нет в аудио

Whisper v3 (ноябрь 2023)

Релиз large-v3 стал значительным шагом вперёд:

128 мел-спектрограммных каналов вместо 80 (больше информации из аудио)
Обучение на ещё большем объёме данных с улучшенной фильтрацией
Заметное улучшение точности для неанглийских языков, в том числе русского
WER для русского снизился до 4–5% на чистом аудио

Whisper v3 Turbo (октябрь 2024)

Самая свежая модель — large-v3-turbo — это компромисс между скоростью и точностью:

В 8 раз быстрее large-v3 при минимальной потере точности
809 миллионов параметров вместо 1.55 миллиарда
Декодер уменьшен с 32 слоёв до 4
Идеальна для продакшн-систем, где важна скорость
WER всего на 1–2% выше, чем у large-v3

Размеры моделей Whisper: от tiny до large-v3

Whisper предлагает шесть основных моделей, и выбор между ними — это всегда компромисс между точностью, скоростью и требованиями к оборудованию.

Сравнительная таблица моделей

Модель	Параметры	VRAM	Относительная скорость	WER (EN)	WER (RU)
tiny	39M	~1 ГБ	Очень быстро	~8%	~15%
base	74M	~1 ГБ	Быстро	~6%	~12%
small	244M	~2 ГБ	Средне	~4.5%	~8%
medium	769M	~5 ГБ	Медленно	~3.5%	~6%
large-v3	1550M	~10 ГБ	Очень медленно	~2.5%	~4%
large-v3-turbo	809M	~6 ГБ	Быстро	~3%	~5%

WER (Word Error Rate) — процент ошибок в распознанных словах. Чем ниже — тем лучше. Значения приведены для чистого аудио; на зашумлённых записях WER будет выше.

Какую модель выбрать

tiny / base: для экспериментов, прототипов, или если нужна максимальная скорость на слабом оборудовании. Подходят для определения языка и грубой транскрибации.
small: оптимальный баланс для многих задач. Хорошая точность при умеренных требованиях к ресурсам.
medium: когда нужна высокая точность, но нет мощной GPU. Хорошо работает с русским языком.
large-v3: максимальная точность для всех языков. Требует серьёзной видеокарты (NVIDIA с 10+ ГБ VRAM).
large-v3-turbo: лучший выбор для продакшна — близкая к large-v3 точность при значительно большей скорости.

Точность Whisper для русского языка

Русский язык — один из тех, для которых Whisper показывает отличные результаты. Это связано с тем, что в обучающей выборке было достаточно много русскоязычного контента.

Реальные показатели

На чистом аудио с хорошим качеством записи (подкасты, интервью, лекции):

large-v3: WER 3–5% — это означает, что из 100 слов неправильно распознаётся лишь 3–5
large-v3-turbo: WER 4–6%
medium: WER 5–7%
small: WER 7–10%

На сложном аудио (шум, несколько спикеров, акцент):

WER может возрастать до 10–20% даже для large-v3
Особенно страдают имена собственные, аббревиатуры и специфическая терминология

Сравнение с конкурентами для русского

Сервис	WER (RU, чистое аудио)	Диаризация	Open-source
Whisper large-v3	3–5%	Нет (нужен доп. модуль)	Да
Google Cloud Speech	4–6%	Да	Нет
Yandex SpeechKit	3–5%	Да	Нет
Azure Speech	4–7%	Да	Нет

Whisper сопоставим с лучшими коммерческими решениями по базовой точности, но уступает им в дополнительных возможностях «из коробки» (диаризация, адаптивные модели, потоковое распознавание). Подробное сравнение всех моделей и сервисов для русского языка — в нашем полном гиде по инструментам транскрибации.

Факторы, влияющие на точность

Улучшают точность:

Чистый аудиосигнал без фонового шума
Один спикер с чёткой дикцией
Качественный микрофон (16 кГц+ частота дискретизации)
Общеупотребительная лексика

Снижают точность:

Фоновая музыка или шум
Несколько одновременно говорящих спикеров
Акценты и диалекты
Специфическая терминология (медицинская, юридическая, техническая)
Низкое качество записи (телефонные звонки, сжатое аудио)

Варианты использования Whisper

OpenAI Whisper API

Самый простой способ использовать Whisper — через облачный API OpenAI.

Преимущества:

Не нужно оборудование и настройка
Всегда актуальная модель
Простой REST API

Недостатки:

Стоимость: $0.006 за минуту аудио
Данные отправляются на серверы OpenAI
Ограничение размера файла: 25 МБ
Зависимость от интернета и доступности сервиса

Стоимость на практике: 1 час аудио = $0.36, 10 часов = $3.60. Для небольших объёмов это выгоднее покупки GPU.

Локальная установка

Для тех, кому важна приватность данных или кто обрабатывает большие объёмы аудио.

Минимальные требования:

Python 3.8+
Для CPU: любой современный процессор (но медленно)
Для GPU: NVIDIA с поддержкой CUDA (GTX 1060+ для small, RTX 3080+ для large-v3)

Установка:

Оригинальный Whisper устанавливается через pip. Также потребуется FFmpeg для обработки аудио. После установки доступна как Python-библиотека, так и CLI-инструмент для транскрибации файлов.

Важно: на CPU транскрибация large-v3 модели может занимать в 10–30 раз больше времени, чем на GPU. Для серьёзной работы GPU практически обязателен.

Оптимизированные реализации

Оригинальный Whisper от OpenAI — не самая эффективная реализация. Сообщество создало несколько значительно более быстрых вариантов:

faster-whisper — реализация на CTranslate2, до 4x быстрее оригинала при том же качестве. Меньшее потребление памяти, поддержка int8 квантизации. Самый популярный выбор для продакшн-развёртываний.

whisper.cpp — реализация на чистом C/C++, оптимизированная для CPU. Работает на Mac (Apple Silicon через Metal), Windows, Linux, Android и даже Raspberry Pi. Идеальна для встраиваемых систем и устройств без GPU.

WhisperX — расширение Whisper с дополнительными возможностями: точное выравнивание таймкодов по словам (forced alignment), диаризация спикеров через pyannote.audio, пакетная обработка (batched inference) для ускорения. Лучший выбор, если нужна диаризация.

Insanely-Fast-Whisper — использует batched inference через Hugging Face Transformers для максимальной скорости на мощных GPU. На RTX 4090 может транскрибировать аудио быстрее реального времени в 100+ раз.

Готовые сервисы на базе Whisper

Не все хотят разбираться с установкой и настройкой. Для них существуют готовые решения:

Диктовка (дикто́вка.рф) — веб-сервис для транскрибации аудио, построенный на Whisper. Просто загрузите файл, вставьте ссылку или запишите голос — и получите текст с разделением по спикерам и AI-саммари. Не нужно ничего устанавливать: всё работает в браузере, а обработка происходит на сервере с мощными GPU.

Десктопные приложения: Vibe (бесплатное, кроссплатформенное), Buzz (open-source GUI), MacWhisper (нативное для macOS), Whisper Notes (iOS + Mac). Подробнее обо всех десктопных и мобильных приложениях — в нашем обзоре инструментов для транскрибации.

Что Whisper умеет и не умеет

Сильные стороны Whisper

Транскрибация на 99 языках. Whisper — одна из немногих моделей, которая действительно хорошо работает с десятками языков. Для русского, английского, испанского, немецкого, французского и других крупных языков точность сопоставима с коммерческими решениями.

Перевод на английский. Whisper может не только транскрибировать речь, но и переводить её на английский язык «на лету». Это уникальная возможность, встроенная прямо в модель.

Определение языка. Модель автоматически определяет язык речи в первые 30 секунд аудио. Точность определения — более 95% для основных языков.

Генерация таймкодов. Whisper возвращает текст с таймкодами для каждого сегмента (обычно 5–30 секунд). С WhisperX можно получить пословные таймкоды.

Устойчивость к шуму. Благодаря обучению на реальных данных из интернета, Whisper неплохо справляется с зашумлённым аудио — фоновая музыка, шум улицы, не очень качественный микрофон.

Ограничения Whisper

Нет диаризации спикеров. Whisper не различает спикеров — он не скажет, кто именно произнёс каждую фразу. Для этого нужен отдельный модуль, например pyannote.audio. Именно поэтому такие сервисы, как Диктовка, добавляют диаризацию поверх Whisper — чтобы вы видели, кто что сказал.

Нет потокового распознавания. Whisper работает с заранее записанным аудио. Он не может транскрибировать речь в реальном времени «из коробки» (хотя есть экспериментальные решения вроде whisper_streaming).

Галлюцинации. Иногда Whisper генерирует текст, которого нет в аудио — особенно в тишине или при очень тихой речи. Это известная проблема encoder-decoder моделей.

Специфическая терминология. Без дополнительной настройки Whisper может ошибаться в медицинских, юридических, технических и других специальных терминах. Нет встроенного механизма для пользовательских словарей.

Пунктуация. Качество автоматической расстановки знаков препинания зависит от языка. Для английского пунктуация хорошая, для некоторых других языков — менее надёжная.

Whisper vs конкуренты: сравнение

Характеристика	Whisper	Google Speech	Azure Speech	Deepgram	AssemblyAI
Open-source	Да	Нет	Нет	Нет	Нет
Языки	99	125+	100+	36	20+
Русский	Отлично	Хорошо	Хорошо	Базово	Нет
Диаризация	Нет*	Да	Да	Да	Да
Real-time	Нет*	Да	Да	Да	Да
Локальный запуск	Да	Нет	Нет	Нет	Нет
Бесплатный	Да	Нет	Нет	Нет	Нет
API цена/мин	$0.006	~$0.016	~$0.016	~$0.015	~$0.015

*Нет встроенной диаризации и real-time, но доступно через сторонние модули (pyannote.audio, whisper_streaming).

Когда выбрать Whisper:

Нужна полная приватность данных (локальный запуск)
Бюджет ограничен или нулевой
Работа с редкими языками
Интеграция в свой продукт без лицензионных ограничений

Когда выбрать коммерческое решение:

Нужно real-time распознавание
Критически важна диаризация «из коробки»
Нет ресурсов на развёртывание и поддержку
Нужна гарантированная SLA

Экосистема вокруг Whisper

Вокруг Whisper сформировалась мощная экосистема инструментов и сервисов:

Оптимизация вывода (inference):

faster-whisper: CTranslate2-бэкенд, 4x ускорение
whisper.cpp: C++ реализация для CPU
Insanely-Fast-Whisper: batched inference на GPU

Расширенные возможности:

WhisperX: диаризация + пословные таймкоды
pyannote.audio: диаризация спикеров
whisper_streaming: экспериментальное real-time распознавание

GUI и приложения:

Vibe, Buzz, MacWhisper — десктопные клиенты
Whishper — self-hosted веб-платформа
Диктовка — облачный сервис с диаризацией и AI-саммари

Интеграции:

Hugging Face Transformers: унифицированный API
MLX Whisper: оптимизация для Apple Silicon
OpenAI API: облачный доступ без развёртывания

Будущее Whisper

Что ожидать

Whisper продолжает развиваться, и можно выделить несколько трендов:

Скорость без потери качества. Линия от large-v3 к large-v3-turbo показывает направление: OpenAI работает над моделями, которые дают ту же точность при значительно меньших вычислительных затратах. Ожидается, что следующие версии будут ещё быстрее.

Улучшение для неанглийских языков. С каждой версией Whisper становится точнее для языков, которые изначально были слабее представлены в обучающих данных. Русский язык уже на хорошем уровне, но есть потенциал для улучшения работы со специфической лексикой.

Интеграция с LLM. Комбинация Whisper + GPT/Claude для постобработки транскриптов открывает новые возможности: автоматическое исправление ошибок, выделение ключевых тем, генерация резюме, ответы на вопросы по содержанию записи.

Расширение экосистемы. Количество инструментов и сервисов на базе Whisper продолжает расти. Появляются специализированные решения для конкретных задач: медицинская транскрибация, юридические протоколы, образовательные субтитры, подкаст-продакшн.

Whisper как фундамент

Whisper стал фундаментом для нового поколения аудиосервисов. Раньше создание сервиса транскрибации требовало огромных инвестиций в обучение собственной модели или дорогих API. Теперь разработчики могут сосредоточиться на пользовательском опыте и дополнительных возможностях — диаризации, саммаризации, поиске по аудио — используя Whisper как базовый движок.

Заключение

Whisper от OpenAI — это одна из самых значимых open-source моделей в области распознавания речи. Она демократизировала доступ к качественной транскрибации, сделав её доступной для всех — от индивидуальных разработчиков до крупных компаний.

Для русского языка Whisper показывает отличные результаты: WER 3–5% на чистом аудио с large-v3 — это уровень лучших коммерческих решений. С оптимизированными реализациями вроде faster-whisper и удобными сервисами, такими как Диктовка, использовать Whisper стало проще, чем когда-либо.

Выбор варианта использования зависит от ваших потребностей: OpenAI API для простоты, локальная установка для приватности, или готовый сервис для удобства. В любом случае, Whisper — это инструмент, который стоит знать и использовать.

FAQ

Whisper от OpenAI бесплатный?

Да, Whisper — это open-source модель под лицензией MIT. Код и веса моделей доступны бесплатно на GitHub. Локальная установка полностью бесплатна. Облачный API OpenAI стоит $0.006 за минуту аудио (~0.5 руб./мин).

Какую модель Whisper выбрать?

Для максимальной точности — large-v3 (WER 3–5% для русского, нужна GPU с 10+ ГБ VRAM). Для продакшна — large-v3-turbo (в 8 раз быстрее при минимальной потере точности). Для экспериментов на слабом оборудовании — small или medium.

Насколько точно Whisper распознаёт русский язык?

На чистом аудио модель large-v3 показывает WER 3–5% для русского — это уровень лучших коммерческих решений. На сложном аудио с шумом или несколькими спикерами WER может возрастать до 10–20%.

Можно ли использовать Whisper офлайн?

Да, Whisper можно установить локально и использовать полностью офлайн. Для этого потребуется Python 3.8+, FFmpeg и видеокарта NVIDIA с поддержкой CUDA. На CPU транскрибация будет работать, но в 10–30 раз медленнее, чем на GPU.

Какая видеокарта нужна для Whisper?

Для модели small достаточно NVIDIA GTX 1060 с 2 ГБ VRAM. Для large-v3 нужна карта с 10+ ГБ VRAM — RTX 3080 или лучше. Модель large-v3-turbo работает на 6 ГБ VRAM. Существуют оптимизированные реализации (faster-whisper, whisper.cpp), которые снижают требования.

Насколько точна модель Whisper tiny?

Whisper tiny (39M параметров) — самая быстрая, но наименее точная модель. Для английского WER составляет 7–10% на чистом аудио. Для русского — 12–18%, для немецкого — 10–15%, для японского — 15–25%. Для не-английских языков в продакшне рекомендуются модели medium или large-v3.

Чем Whisper отличается от WhisperLive?

Whisper — это модель пакетной транскрибации от OpenAI: загружаете файл целиком и получаете текст. WhisperLive и аналогичные проекты (whisper-streaming, faster-whisper-server) добавляют поверх Whisper стриминг через WebSocket, позволяя транскрибировать речь в реальном времени. Используется та же модель, но с инфраструктурой потоковой передачи.

Попробовать бесплатно