Alle Artikel

OpenAI Whisper: Modelle, Genauigkeit, Funktionen und Einsatzmoeglichkeiten

·20 Min. Lesezeit

OpenAI Whisper ist das Open-Source-Spracherkennungsmodell, das die Transkriptionsbranche revolutioniert hat. Dieser Leitfaden behandelt alle Whisper-Versionen, vergleicht Modellgroessen, bewertet die Genauigkeit ueber verschiedene Sprachen hinweg, untersucht Bereitstellungsoptionen von der API bis zur lokalen Installation und zeigt, wo Whisper wirklich glaenzt — und wo es Hilfe braucht.


Was ist Whisper

Whisper ist ein automatisches Spracherkennungsmodell (ASR), das von OpenAI entwickelt und im September 2022 als Open Source veroeffentlicht wurde. Es war nicht einfach ein weiteres STT-System — Whisper wurde zum ersten wirklich genauen und vollstaendig kostenlosen Modell fuer Sprachtranskription.

Wichtige Fakten ueber das Whisper-Modell:

Vor Whisper war hochwertige Spracherkennung nur ueber kostenpflichtige Cloud-APIs (Google Cloud Speech, Amazon Transcribe, Azure Speech) zugaenglich. Open-Source-Alternativen wie DeepSpeech und Vosk hinken bei der Genauigkeit deutlich hinterher. Whisper hat die Spielregeln veraendert: Jeder Entwickler konnte nun Spracherkennung auf kommerziellem Niveau erhalten — kostenlos und auf eigener Hardware ausfuehrbar.

Warum Whisper revolutionaer war

Der Schluessel zum Erfolg von Whisper liegt im Umfang und in der Vielfalt seiner Trainingsdaten. Die 680.000 Stunden Audio umfassten:

Dieser Ansatz des "schwachen Lernens" ermoeglichte es dem Modell, aus realer Sprache zu lernen, nicht nur aus perfekten Laboraufnahmen. Dadurch liefert Whisper auch bei verrauschtem Audio, mit Akzenten und unter alles andere als idealen Bedingungen eine stabile Genauigkeit.


Whisper-Versionsgeschichte

Whisper v1 (September 2022)

Die erste oeffentliche Version umfasste fuenf Modellgroessen: tiny, base, small, medium und large. Von Anfang an zeigte das large-Modell eine Genauigkeit, die mit kommerziellen Diensten vergleichbar war. Das Modell unterstuetzte sofort 99 Sprachen, wobei die Qualitaet fuer einzelne Sprachen stark variierte.

Whisper v2 (Dezember 2022)

Nur drei Monate spaeter veroeffentlichte OpenAI das aktualisierte large-v2-Modell. Wichtige Verbesserungen:

Whisper v3 (November 2023)

Die Veroeffentlichung von large-v3 war ein bedeutender Fortschritt:

Whisper v3 Turbo (Oktober 2024)

Das neueste Modell — large-v3-turbo — schafft eine Balance zwischen Geschwindigkeit und Genauigkeit:


Whisper-Modellgroessen: Von Tiny bis Large-v3

Whisper bietet sechs Hauptmodelle, und die Wahl zwischen ihnen ist immer ein Kompromiss zwischen Genauigkeit, Geschwindigkeit und Hardwareanforderungen.

Modellvergleichstabelle

ModellParameterVRAMRelative GeschwindigkeitWER (EN)WER (DE)
tiny39M~1 GBSehr schnell~8%~14%
base74M~1 GBSchnell~6%~11%
small244M~2 GBMittel~4,5%~7%
medium769M~5 GBLangsam~3,5%~5,5%
large-v31550M~10 GBSehr langsam~2,5%~3,5%
large-v3-turbo809M~6 GBSchnell~3%~4,5%

WER (Wortfehlerrate) — der Prozentsatz falsch erkannter Woerter. Niedriger ist besser. Die Werte gelten fuer sauberes Audio; bei verrauschten Aufnahmen ist die WER hoeher.

Welches Modell waehlen


Whisper-Genauigkeit fuer Deutsch

Deutsch gehoert zu den Sprachen, fuer die Whisper hervorragende Ergebnisse liefert. Dies liegt daran, dass im Trainingsdatensatz eine erhebliche Menge an deutschsprachigen Inhalten vorhanden war.

Reale Leistungswerte

Bei sauberem Audio mit guter Aufnahmequalitaet (Podcasts, Interviews, Vortraege):

Bei schwierigem Audio (Laerm, mehrere Sprecher, Akzent):

Vergleich mit Wettbewerbern fuer Deutsch

DienstWER (DE, sauber)DiarisierungOpen Source
Whisper large-v33-5%Nein*Ja
Google Cloud Speech3-5%JaNein
Azure Speech3-5%JaNein
Deepgram5-8%JaNein

*Keine eingebaute Diarisierung, aber ueber Drittanbietermodule wie pyannote.audio verfuegbar.

Faktoren, die die Genauigkeit beeinflussen

Verbessern die Genauigkeit:

Verringern die Genauigkeit:


Whisper verwenden

OpenAI Whisper API

Der einfachste Weg, Whisper zu nutzen, ist ueber die Cloud-API von OpenAI.

Vorteile:

Nachteile:

Reale Kosten: 1 Stunde Audio = 0,36 $, 10 Stunden = 3,60 $. Fuer kleine Volumina ist dies guenstiger als der Kauf einer GPU.

Lokale Installation

Fuer diejenigen, die Wert auf Datenschutz legen oder grosse Mengen an Audio verarbeiten.

Mindestanforderungen:

Das Original-Whisper wird ueber pip installiert. Zusaetzlich wird FFmpeg fuer die Audioverarbeitung benoetigt. Nach der Installation stehen sowohl eine Python-Bibliothek als auch ein CLI-Tool zur Verfuegung.

Wichtig: Die CPU-Transkription mit dem large-v3-Modell kann 10-30-mal laenger dauern als auf einer GPU. Fuer ernsthafte Arbeit ist eine GPU praktisch unverzichtbar.

Optimierte Implementierungen

Das urspruengliche OpenAI-Whisper ist nicht die effizienteste Implementierung. Die Community hat mehrere deutlich schnellere Alternativen geschaffen:

faster-whisper — basiert auf CTranslate2, bis zu 4-mal schneller als das Original bei gleicher Qualitaet. Geringerer Speicherverbrauch, int8-Quantisierungsunterstuetzung. Die beliebteste Wahl fuer Produktionseinsaetze.

whisper.cpp — eine reine C/C++-Implementierung, optimiert fuer CPUs. Laeuft auf Mac (Apple Silicon ueber Metal), Windows, Linux, Android und sogar Raspberry Pi. Ideal fuer eingebettete Systeme und Geraete ohne GPU.

WhisperX — Whisper-Erweiterung mit zusaetzlichen Funktionen: wortgenaue Zeitstempel (Forced Alignment), Sprecherdiarisierung ueber pyannote.audio und Batch-Inferenz zur Beschleunigung. Die beste Wahl, wenn Diarisierung benoetigt wird.

Insanely-Fast-Whisper — nutzt Batch-Inferenz ueber Hugging Face Transformers fuer maximale Geschwindigkeit auf leistungsfaehigen GPUs. Auf einer RTX 4090 kann Audio ueber 100-mal schneller als in Echtzeit transkribiert werden.

Fertige Dienste auf Whisper-Basis

Nicht jeder moechte sich mit Installation und Konfiguration befassen. Es gibt fertige Loesungen:

Diktovka (diktovka.rf) — ein Webdienst fuer Audiotranskription auf Whisper-Basis. Laden Sie einfach eine Datei hoch, fuegen Sie einen Link ein oder nehmen Sie Ihre Stimme auf — und erhalten Sie Text mit Sprecherdiarisierung und KI-Zusammenfassung. Keine Installation erforderlich: Alles laeuft im Browser, die Verarbeitung erfolgt auf leistungsstarken GPU-Servern.

Desktop-Anwendungen: Vibe (kostenlos, plattformuebergreifend), Buzz (Open-Source-GUI), MacWhisper (nativ fuer macOS), Whisper Notes (iOS + Mac). Weitere Desktop- und Mobil-Transkriptions-Apps finden Sie in unserem Leitfaden zu Transkriptions-Apps.


Was Whisper kann und was nicht

Staerken

Transkription in 99 Sprachen. Whisper ist eines der wenigen Modelle, das in Dutzenden von Sprachen wirklich gut funktioniert. Fuer Deutsch, Englisch, Franzoesisch, Spanisch und andere grosse Sprachen ist die Genauigkeit mit kommerziellen Loesungen vergleichbar, auch wenn integrierte Funktionen wie Diarisierung, adaptive Modelle und Echtzeit-Streaming fehlen. Einen detaillierten Vergleich von Transkriptionsmodellen und -diensten finden Sie in unserem Transkriptionsmarkt-Leitfaden.

Uebersetzung ins Englische. Whisper kann Sprache nicht nur transkribieren, sondern auch in Echtzeit ins Englische uebersetzen. Dies ist eine einzigartige Faehigkeit, die direkt in das Modell integriert ist.

Spracherkennung. Das Modell identifiziert automatisch die Sprache innerhalb der ersten 30 Sekunden des Audios. Die Erkennungsgenauigkeit liegt bei ueber 95% fuer die wichtigsten Sprachen.

Zeitstempelgenerierung. Whisper liefert Text mit Zeitstempeln fuer jedes Segment (typischerweise 5-30 Sekunden). Mit WhisperX koennen wortgenaue Zeitstempel erhalten werden.

Laermresistenz. Dank des Trainings mit realen Internetdaten kommt Whisper recht gut mit verrauschtem Audio zurecht — Hintergrundmusik, Strassenlaerm, durchschnittliche Mikrofone.

Einschraenkungen

Keine Sprecherdiarisierung. Whisper unterscheidet nicht zwischen Sprechern — es sagt nicht, wer welchen Satz gesprochen hat. Dafuer wird ein separates Modul wie pyannote.audio benoetigt. Genau deshalb fuegen Dienste wie Diktovka eine Diarisierung auf Whisper hinzu — damit Sie sehen koennen, wer was gesagt hat.

Kein Echtzeit-Streaming. Whisper arbeitet mit voraufgezeichnetem Audio. Es kann Sprache nicht in Echtzeit transkribieren (obwohl experimentelle Loesungen wie whisper_streaming existieren).

Halluzinationen. Manchmal generiert Whisper Text, der nicht im Audio vorhanden ist — besonders bei Stille oder sehr leiser Sprache. Dies ist ein bekanntes Problem von Encoder-Decoder-Modellen.

Fachterminologie. Ohne zusaetzliche Anpassung kann Whisper bei medizinischen, juristischen, technischen und anderen Fachbegriffen Fehler machen. Es gibt keinen eingebauten Mechanismus fuer benutzerdefinierte Woerterbuecher.


Whisper vs. Wettbewerber: Vollstaendiger Vergleich

MerkmalWhisperGoogle SpeechAzure SpeechDeepgramAssemblyAI
Open SourceJaNeinNeinNeinNein
Sprachen99125+100+3620+
DeutschSehr gutSehr gutSehr gutGutBegrenzt
DiarisierungNein*JaJaJaJa
EchtzeitNein*JaJaJaJa
Lokaler EinsatzJaNeinNeinNeinNein
KostenlosJaNeinNeinNeinNein
API-Preis/Min.0,006 $~0,016 $~0,016 $~0,015 $~0,015 $

*Nicht eingebaut, aber ueber Drittanbietermodule (pyannote.audio, whisper_streaming) verfuegbar.

Whisper waehlen, wenn:

Kommerzielles Produkt waehlen, wenn:


Das Whisper-Oekosystem

Um Whisper hat sich ein leistungsfaehiges Oekosystem aus Werkzeugen und Diensten gebildet:

Inferenz-Optimierung:

Erweiterte Faehigkeiten:

GUIs und Anwendungen:


Die Zukunft von Whisper

Was zu erwarten ist

Whisper entwickelt sich weiter, und es zeichnen sich mehrere Trends ab:

Geschwindigkeit ohne Qualitaetsverlust. Der Fortschritt von large-v3 zu large-v3-turbo zeigt die Richtung: OpenAI arbeitet an Modellen, die die gleiche Genauigkeit bei deutlich geringeren Rechenkosten liefern. Zukuenftige Versionen werden voraussichtlich noch schneller sein.

Verbesserung fuer nicht-englische Sprachen. Mit jeder Version wird Whisper genauer fuer Sprachen, die in den Trainingsdaten anfaenglich unterrepraesentiert waren. Deutsch ist bereits auf einem guten Niveau, aber es gibt Potenzial fuer Verbesserungen bei Fachvokabular, regionalen Dialekten und zusammengesetzten Woertern.

Integration mit LLMs. Die Kombination von Whisper + GPT/Claude fuer die Nachbearbeitung von Transkripten eroeffnet neue Moeglichkeiten: automatische Fehlerkorrektur, Extraktion von Schluesselthemen, Zusammenfassungsgenerierung und Beantwortung von Fragen zum Aufnahmeinhalt.

Oekosystem-Erweiterung. Die Zahl der auf Whisper basierenden Werkzeuge und Dienste waechst weiter. Es entstehen spezialisierte Loesungen fuer bestimmte Anwendungsfaelle: medizinische Transkription, juristische Protokolle, Bildungsuntertitel und Podcast-Produktion.


Fazit

OpenAI Whisper ist eines der bedeutendsten Open-Source-Modelle in der Spracherkennung. Es hat den Zugang zu hochwertiger Transkription demokratisiert und sie fuer alle zugaenglich gemacht — von einzelnen Entwicklern bis hin zu Grossunternehmen.

Fuer Deutsch liefert Whisper hervorragende Ergebnisse: WER von 3-5% auf sauberem Audio mit large-v3 — das ist das Niveau der besten kommerziellen Loesungen. Mit optimierten Implementierungen wie faster-whisper und praktischen Diensten wie Diktovka war die Nutzung von Whisper noch nie so einfach.

Die Wahl der Bereitstellung haengt von Ihren Beduerfnissen ab: OpenAI-API fuer Einfachheit, lokale Installation fuer Datenschutz oder ein fertiger Dienst fuer Komfort. In jedem Fall ist Whisper ein Werkzeug, das es zu kennen und zu nutzen lohnt.

FAQ

Ist OpenAI Whisper kostenlos?

Ja, Whisper ist ein Open-Source-Modell unter der MIT-Lizenz. Code und Modellgewichte sind kostenlos auf GitHub verfuegbar. Die lokale Installation ist voellig kostenlos. Die Cloud-API von OpenAI kostet $0,006 pro Minute Audio.

Welches Whisper-Modell sollte ich waehlen?

Fuer maximale Genauigkeit waehlen Sie large-v3 (WER 3-5% fuer Deutsch, benoetigt GPU mit 10+ GB VRAM). Fuer den Produktionseinsatz ist large-v3-turbo 8-mal schneller bei minimalem Genauigkeitsverlust. Fuer Experimente auf bescheidener Hardware eignen sich small oder medium.

Wie genau erkennt Whisper die deutsche Sprache?

Auf sauberem Audio zeigt das Modell large-v3 einen WER von 3-5% fuer Deutsch — das Niveau der besten kommerziellen Loesungen. Bei schwierigem Audio mit Laerm oder mehreren Sprechern kann der WER auf 10-20% ansteigen.

Kann Whisper offline genutzt werden?

Ja, Whisper laesst sich lokal installieren und voellig offline nutzen. Benoetigt werden Python 3.8+, FFmpeg und eine NVIDIA-GPU mit CUDA-Unterstuetzung. Auf der CPU funktioniert die Transkription, ist aber 10- bis 30-mal langsamer als auf der GPU.

Welche Grafikkarte brauche ich fuer Whisper?

Fuer das Small-Modell genuegt eine NVIDIA GTX 1060 mit 2 GB VRAM. Fuer large-v3 wird eine Karte mit 10+ GB VRAM benoetigt — RTX 3080 oder besser. Das large-v3-turbo-Modell laeuft mit 6 GB VRAM. Optimierte Implementierungen wie faster-whisper und whisper.cpp koennen die Anforderungen senken.