Все статьи

Whisper от OpenAI: модели, точность, возможности и варианты использования

·20 мин чтения

Whisper от OpenAI — это open-source модель распознавания речи, которая изменила индустрию транскрибации. В этом руководстве мы разберём все версии Whisper, сравним размеры моделей, оценим точность для русского и других языков, рассмотрим варианты использования — от API до локальной установки — и покажем, где Whisper действительно силён, а где ему нужна помощь.


Что такое Whisper

Whisper — это модель автоматического распознавания речи (ASR), разработанная OpenAI и выпущенная в открытый доступ в сентябре 2022 года. Это не просто очередная STT-система: Whisper стал первой по-настоящему точной и при этом полностью бесплатной моделью для транскрибации речи.

Ключевые факты о Whisper:

До Whisper качественное распознавание речи было доступно только через платные облачные API (Google Cloud Speech, Amazon Transcribe, Azure Speech). Open-source альтернативы вроде DeepSpeech и Vosk заметно уступали по точности. Whisper изменил правила игры: теперь любой разработчик мог получить распознавание речи уровня коммерческих решений — бесплатно и с возможностью запуска на своём оборудовании.

Почему Whisper стал революцией

Главный секрет Whisper — объём и разнообразие обучающих данных. 680 000 часов аудио включали:

Этот подход «weak supervision» (слабая разметка) позволил модели научиться обрабатывать реальную речь, а не только идеальные лабораторные записи. В результате Whisper показывает стабильную точность даже на зашумлённом аудио, с акцентами и в условиях, далёких от идеальных.


История версий Whisper

Whisper v1 (сентябрь 2022)

Первый публичный релиз включал пять размеров модели: tiny, base, small, medium и large. Уже на старте large-модель показала точность, сопоставимую с коммерческими сервисами, а для английского языка — даже превосходящую некоторые из них. Модель сразу поддерживала 99 языков, хотя качество для отдельных языков сильно варьировалось.

Whisper v2 (декабрь 2022)

Всего через три месяца OpenAI выпустила обновлённую large-v2 модель. Основные улучшения:

Whisper v3 (ноябрь 2023)

Релиз large-v3 стал значительным шагом вперёд:

Whisper v3 Turbo (октябрь 2024)

Самая свежая модель — large-v3-turbo — это компромисс между скоростью и точностью:


Размеры моделей Whisper: от tiny до large-v3

Whisper предлагает шесть основных моделей, и выбор между ними — это всегда компромисс между точностью, скоростью и требованиями к оборудованию.

Сравнительная таблица моделей

МодельПараметрыVRAMОтносительная скоростьWER (EN)WER (RU)
tiny39M~1 ГБОчень быстро~8%~15%
base74M~1 ГББыстро~6%~12%
small244M~2 ГБСредне~4.5%~8%
medium769M~5 ГБМедленно~3.5%~6%
large-v31550M~10 ГБОчень медленно~2.5%~4%
large-v3-turbo809M~6 ГББыстро~3%~5%

WER (Word Error Rate) — процент ошибок в распознанных словах. Чем ниже — тем лучше. Значения приведены для чистого аудио; на зашумлённых записях WER будет выше.

Какую модель выбрать


Точность Whisper для русского языка

Русский язык — один из тех, для которых Whisper показывает отличные результаты. Это связано с тем, что в обучающей выборке было достаточно много русскоязычного контента.

Реальные показатели

На чистом аудио с хорошим качеством записи (подкасты, интервью, лекции):

На сложном аудио (шум, несколько спикеров, акцент):

Сравнение с конкурентами для русского

СервисWER (RU, чистое аудио)ДиаризацияOpen-source
Whisper large-v33–5%Нет (нужен доп. модуль)Да
Google Cloud Speech4–6%ДаНет
Yandex SpeechKit3–5%ДаНет
Azure Speech4–7%ДаНет

Whisper сопоставим с лучшими коммерческими решениями по базовой точности, но уступает им в дополнительных возможностях «из коробки» (диаризация, адаптивные модели, потоковое распознавание). Подробное сравнение всех моделей и сервисов для русского языка — в нашем полном гиде по инструментам транскрибации.

Факторы, влияющие на точность

Улучшают точность:

Снижают точность:


Варианты использования Whisper

OpenAI Whisper API

Самый простой способ использовать Whisper — через облачный API OpenAI.

Преимущества:

Недостатки:

Стоимость на практике: 1 час аудио = $0.36, 10 часов = $3.60. Для небольших объёмов это выгоднее покупки GPU.

Локальная установка

Для тех, кому важна приватность данных или кто обрабатывает большие объёмы аудио.

Минимальные требования:

Установка:

Оригинальный Whisper устанавливается через pip. Также потребуется FFmpeg для обработки аудио. После установки доступна как Python-библиотека, так и CLI-инструмент для транскрибации файлов.

Важно: на CPU транскрибация large-v3 модели может занимать в 10–30 раз больше времени, чем на GPU. Для серьёзной работы GPU практически обязателен.

Оптимизированные реализации

Оригинальный Whisper от OpenAI — не самая эффективная реализация. Сообщество создало несколько значительно более быстрых вариантов:

faster-whisper — реализация на CTranslate2, до 4x быстрее оригинала при том же качестве. Меньшее потребление памяти, поддержка int8 квантизации. Самый популярный выбор для продакшн-развёртываний.

whisper.cpp — реализация на чистом C/C++, оптимизированная для CPU. Работает на Mac (Apple Silicon через Metal), Windows, Linux, Android и даже Raspberry Pi. Идеальна для встраиваемых систем и устройств без GPU.

WhisperX — расширение Whisper с дополнительными возможностями: точное выравнивание таймкодов по словам (forced alignment), диаризация спикеров через pyannote.audio, пакетная обработка (batched inference) для ускорения. Лучший выбор, если нужна диаризация.

Insanely-Fast-Whisper — использует batched inference через Hugging Face Transformers для максимальной скорости на мощных GPU. На RTX 4090 может транскрибировать аудио быстрее реального времени в 100+ раз.

Готовые сервисы на базе Whisper

Не все хотят разбираться с установкой и настройкой. Для них существуют готовые решения:

Диктовка (дикто́вка.рф) — веб-сервис для транскрибации аудио, построенный на Whisper. Просто загрузите файл, вставьте ссылку или запишите голос — и получите текст с разделением по спикерам и AI-саммари. Не нужно ничего устанавливать: всё работает в браузере, а обработка происходит на сервере с мощными GPU.

Десктопные приложения: Vibe (бесплатное, кроссплатформенное), Buzz (open-source GUI), MacWhisper (нативное для macOS), Whisper Notes (iOS + Mac). Подробнее обо всех десктопных и мобильных приложениях — в нашем обзоре инструментов для транскрибации.


Что Whisper умеет и не умеет

Сильные стороны Whisper

Транскрибация на 99 языках. Whisper — одна из немногих моделей, которая действительно хорошо работает с десятками языков. Для русского, английского, испанского, немецкого, французского и других крупных языков точность сопоставима с коммерческими решениями.

Перевод на английский. Whisper может не только транскрибировать речь, но и переводить её на английский язык «на лету». Это уникальная возможность, встроенная прямо в модель.

Определение языка. Модель автоматически определяет язык речи в первые 30 секунд аудио. Точность определения — более 95% для основных языков.

Генерация таймкодов. Whisper возвращает текст с таймкодами для каждого сегмента (обычно 5–30 секунд). С WhisperX можно получить пословные таймкоды.

Устойчивость к шуму. Благодаря обучению на реальных данных из интернета, Whisper неплохо справляется с зашумлённым аудио — фоновая музыка, шум улицы, не очень качественный микрофон.

Ограничения Whisper

Нет диаризации спикеров. Whisper не различает спикеров — он не скажет, кто именно произнёс каждую фразу. Для этого нужен отдельный модуль, например pyannote.audio. Именно поэтому такие сервисы, как Диктовка, добавляют диаризацию поверх Whisper — чтобы вы видели, кто что сказал.

Нет потокового распознавания. Whisper работает с заранее записанным аудио. Он не может транскрибировать речь в реальном времени «из коробки» (хотя есть экспериментальные решения вроде whisper_streaming).

Галлюцинации. Иногда Whisper генерирует текст, которого нет в аудио — особенно в тишине или при очень тихой речи. Это известная проблема encoder-decoder моделей.

Специфическая терминология. Без дополнительной настройки Whisper может ошибаться в медицинских, юридических, технических и других специальных терминах. Нет встроенного механизма для пользовательских словарей.

Пунктуация. Качество автоматической расстановки знаков препинания зависит от языка. Для английского пунктуация хорошая, для некоторых других языков — менее надёжная.


Whisper vs конкуренты: сравнение

ХарактеристикаWhisperGoogle SpeechAzure SpeechDeepgramAssemblyAI
Open-sourceДаНетНетНетНет
Языки99125+100+3620+
РусскийОтличноХорошоХорошоБазовоНет
ДиаризацияНет*ДаДаДаДа
Real-timeНет*ДаДаДаДа
Локальный запускДаНетНетНетНет
БесплатныйДаНетНетНетНет
API цена/мин$0.006~$0.016~$0.016~$0.015~$0.015

*Нет встроенной диаризации и real-time, но доступно через сторонние модули (pyannote.audio, whisper_streaming).

Когда выбрать Whisper:

Когда выбрать коммерческое решение:


Экосистема вокруг Whisper

Вокруг Whisper сформировалась мощная экосистема инструментов и сервисов:

Оптимизация вывода (inference):

Расширенные возможности:

GUI и приложения:

Интеграции:


Будущее Whisper

Что ожидать

Whisper продолжает развиваться, и можно выделить несколько трендов:

Скорость без потери качества. Линия от large-v3 к large-v3-turbo показывает направление: OpenAI работает над моделями, которые дают ту же точность при значительно меньших вычислительных затратах. Ожидается, что следующие версии будут ещё быстрее.

Улучшение для неанглийских языков. С каждой версией Whisper становится точнее для языков, которые изначально были слабее представлены в обучающих данных. Русский язык уже на хорошем уровне, но есть потенциал для улучшения работы со специфической лексикой.

Интеграция с LLM. Комбинация Whisper + GPT/Claude для постобработки транскриптов открывает новые возможности: автоматическое исправление ошибок, выделение ключевых тем, генерация резюме, ответы на вопросы по содержанию записи.

Расширение экосистемы. Количество инструментов и сервисов на базе Whisper продолжает расти. Появляются специализированные решения для конкретных задач: медицинская транскрибация, юридические протоколы, образовательные субтитры, подкаст-продакшн.

Whisper как фундамент

Whisper стал фундаментом для нового поколения аудиосервисов. Раньше создание сервиса транскрибации требовало огромных инвестиций в обучение собственной модели или дорогих API. Теперь разработчики могут сосредоточиться на пользовательском опыте и дополнительных возможностях — диаризации, саммаризации, поиске по аудио — используя Whisper как базовый движок.


Заключение

Whisper от OpenAI — это одна из самых значимых open-source моделей в области распознавания речи. Она демократизировала доступ к качественной транскрибации, сделав её доступной для всех — от индивидуальных разработчиков до крупных компаний.

Для русского языка Whisper показывает отличные результаты: WER 3–5% на чистом аудио с large-v3 — это уровень лучших коммерческих решений. С оптимизированными реализациями вроде faster-whisper и удобными сервисами, такими как Диктовка, использовать Whisper стало проще, чем когда-либо.

Выбор варианта использования зависит от ваших потребностей: OpenAI API для простоты, локальная установка для приватности, или готовый сервис для удобства. В любом случае, Whisper — это инструмент, который стоит знать и использовать.

FAQ

Whisper от OpenAI бесплатный?

Да, Whisper — это open-source модель под лицензией MIT. Код и веса моделей доступны бесплатно на GitHub. Локальная установка полностью бесплатна. Облачный API OpenAI стоит $0.006 за минуту аудио (~0.5 руб./мин).

Какую модель Whisper выбрать?

Для максимальной точности — large-v3 (WER 3–5% для русского, нужна GPU с 10+ ГБ VRAM). Для продакшна — large-v3-turbo (в 8 раз быстрее при минимальной потере точности). Для экспериментов на слабом оборудовании — small или medium.

Насколько точно Whisper распознаёт русский язык?

На чистом аудио модель large-v3 показывает WER 3–5% для русского — это уровень лучших коммерческих решений. На сложном аудио с шумом или несколькими спикерами WER может возрастать до 10–20%.

Можно ли использовать Whisper офлайн?

Да, Whisper можно установить локально и использовать полностью офлайн. Для этого потребуется Python 3.8+, FFmpeg и видеокарта NVIDIA с поддержкой CUDA. На CPU транскрибация будет работать, но в 10–30 раз медленнее, чем на GPU.

Какая видеокарта нужна для Whisper?

Для модели small достаточно NVIDIA GTX 1060 с 2 ГБ VRAM. Для large-v3 нужна карта с 10+ ГБ VRAM — RTX 3080 или лучше. Модель large-v3-turbo работает на 6 ГБ VRAM. Существуют оптимизированные реализации (faster-whisper, whisper.cpp), которые снижают требования.