Alle Artikel

Transkriptions-Apps und -Tools: Ein umfassender Leitfaden

·18 Min. Lesezeit

Ein umfassender Leitfaden zu Apps und Tools fuer Sprachtranskription: Whisper-basierte Desktop-GUIs, Self-Hosted-Loesungen, Videoeditoren mit integrierter Transkription, browserbasierte Dienste und mobile Apps fuer iOS und Android. Alle Optionen — von vollstaendig kostenlosen Open-Source-Loesungen bis hin zu kostenpflichtigen Tools mit erweiterten Funktionen.


Desktop-Apps: Whisper mit benutzerfreundlicher Oberflaeche

Fuer alle, die eine einfache GUI ohne Kommandozeile bevorzugen, ist ein ganzes Oekosystem von Whisper-basierten Desktop-Apps entstanden. Alle arbeiten offline, und Ihre Daten verlassen niemals Ihren Computer — mehr dazu in «Lokale vs. Cloud-Transkription».

Handy (handy.computer) — eine kostenlose Open-Source-App fuer macOS/Windows/Linux mit einem einzigartigen Ansatz: Push-to-Talk-Diktat direkt in jedes Textfeld. Tastenkombination druecken, sprechen, loslassen — der Text wird im aktiven Fenster eingefuegt. Ideal als Tastaturersatz beim Tippen, Chatten und Notizenmachen. Basiert auf Whisper, vollstaendig offline und privat. Gesponsert von Wordcab und Bolt AI.

Vibe (thewh1teagle.github.io/vibe) — eine der besten kostenlosen Open-Source-Loesungen mit ueber 5.000 Sternen auf GitHub. Plattformuebergreifend (Windows, macOS, Linux), basiert auf Tauri + whisper.cpp. Unterstuetzt GPU-Beschleunigung (NVIDIA, AMD, Apple Silicon ueber Vulkan/CoreML), ueber 90 Sprachen, Sprecher-Diarisierung, Export in SRT/VTT/TXT/DOCX/PDF/JSON, YouTube-Link-Transkription ueber yt-dlp, Mikrofonaufnahme, Zusammenfassung ueber Claude/Ollama, HTTP-API mit Swagger-Dokumentation und sogar einen CLI-Modus. Der funktionsreichste kostenlose Desktop-Client, der derzeit verfuegbar ist. Installer ~24 MB, nach Installation ~87 MB + Modell.

Buzz (buzzcaptions.com) — eine kostenlose Open-Source-GUI fuer Whisper. Plattformuebergreifend, unterstuetzt mehrere Backends (whisper.cpp, faster-whisper), Sprechertrennung, Untertitel-Export. Minimalistischer als Vibe, aber stabil und bewaehrt.

MacWhisper / Whisper Transcription (App Store, macupdate.com) — eine native macOS-App. Die kostenlose Version enthaelt die Modelle Base und Small. Pro-Abonnement: 4,99 $/Woche, 8,99 $/Monat, 29,99 $/Jahr oder 79,99 $ einmalig. Pro schaltet Medium- und Large-Modelle frei, Stapelverarbeitung, Systemton-Aufnahme (Zoom-Anrufe, Podcasts), Sprechertrennung, Lesemodus und ChatGPT-Integration zur Zusammenfassung. Die ausgereifteste Whisper-Oberflaeche fuer Mac. Bewertung ~4,0 auf MacUpdate.

Whisper Notes (whispernotes.app) — 6,99 $ einmalig fuer iOS + Mac. Ueber 60.000 Nutzer. Hauptmerkmal: systemweites Diktat — Fn in einer beliebigen App gedrueckt halten, sprechen, loslassen, und der Text wird eingefuegt. Import von Audio-/Videodateien mit Streaming-Ergebnissen. Vollstaendig offline, nutzt Whisper Large V3 Turbo auf Apple Silicon.

WhisperDesktop (github.com/Const-me/Whisper) — eine kostenlose Windows-App mit GPU-Beschleunigung ueber DirectCompute/GPGPU. Deutlich schneller als das originale Whisper: 3:24 Min. Audio in 19 Sekunden auf einer GeForce 1080Ti verarbeitet (gegenueber 45 Sek. mit PyTorch+CUDA). Datei-Transkription + Echtzeit-Mikrofonaufnahme. Empfohlenes Modell: ggml-medium.bin (~1,42 GB).

WhisperUI (Microsoft Store) — eine kostenlose Windows-App. GPU-Beschleunigung ueber CPU, OpenCL, NVIDIA CUDA 11/12. Vollstaendig offline, Untertitel-Export in SRT/VTT, Stapelverarbeitung.

Aiko (~5,99 $, iOS/Mac) — die einfachste Whisper-App fuer Apple. Audiodatei per Drag-and-Drop einfuegen und Text erhalten. 100 % on-device, ideal fuer alle, die Transkription auf Knopfdruck ohne Konfiguration wuenschen.

Whisper Transcription (iOS App Store, Freemium) — eine mobile App mit On-Device- und Cloud-Modus. Die Share-Erweiterung ermoeglicht die Transkription von Sprachnachrichten aus iMessage, WhatsApp und Sprachmemos. Erfordert iPhone 13+ fuer On-Device-Verarbeitung. KI-Zusammenfassung, Chat mit dem Transkript. Bewertung 4,6+.


Self-Hosted-Loesungen: Fuer den eigenen Server

Fuer alle, die einen vollwertigen Transkriptionsdienst auf dem eigenen Server oder im lokalen Netzwerk betreiben moechten.

Whishper (github.com/pluja/whishper) — eine voll ausgestattete Self-Hosted-Plattform mit Web-Oberflaeche. Enthaelt faster-whisper fuer Transkription, LibreTranslate/Argos Translate fuer Untertiteluebersetzung (ueber 60 Sprachen), einen integrierten Untertitel-Editor und Export in JSON/TXT/VTT/SRT. Bereitstellung ueber Docker Compose (5 Container: API, Backend, Frontend, Uebersetzung, MongoDB). Nach der Installation 100 % offline. Eine ausgezeichnete Wahl fuer Teams, die einen privaten Dienst ohne Cloud benoetigen.

WhisperLive (github.com/collabora/WhisperLive, Collabora) — eine Open-Source-Loesung fuer Echtzeit-Transkription. WebSocket-Server: Mikrofon oder Datei verbinden und Text mit minimaler Latenz erhalten. Unterstuetzt faster-whisper-, TensorRT- und OpenVINO-Backends. Python-Client und JS-Demo. Geeignet fuer Live-Transkription von Meetings und Konferenzen.

WhisperTranscribe (whispertranscribe.com) — ein Cloud-Dienst mit Desktop-App fuer Windows. Kostenlose 60-Minuten-Testversion ohne Kreditkarte. Nutzt Whisper + AssemblyAI. Ueber Transkription hinaus: 57+ Inhaltstypen aus einer einzigen Aufnahme (Beitraege, Zusammenfassungen, Marketingmaterialien), KI-Training auf den Stil des Nutzers, YouTube/Vimeo-Link-Transkription, Podcast-Bibliothek mit 2,5 Millionen Eintraegen. 55+ Sprachen. Abonnement ~15 $/Monat.


Videoeditoren mit integrierter Transkription

Eine eigene Kategorie: Videoeditoren, die Audio als Teil des Workflows transkribieren koennen.

CapCut (ByteDance/TikTok) — ein kostenloser Videoeditor mit leistungsstarker Auto-Captions-Funktion. Unterstuetzt ueber 100 Sprachen, einschliesslich Deutsch. Transkribiert Sprache in Untertitel, ermoeglicht transkriptbasiertes Editieren, Untertiteluebersetzung und zweisprachige Untertitelerstellung. Web-Version, Desktop (Windows/Mac) und mobile Apps. Kostenlos. Einschraenkung: auf Untertitel ausgerichtet, nicht auf vollstaendige Dokumenttranskripte.

Descript — ein leistungsstarker Audio-/Videoeditor mit transkriptbasiertem Editieren (ein Wort aus dem Text loeschen und es wird aus dem Video geschnitten). Unterstuetzt viele nicht-lateinische Sprachen nicht. Der Vollstaendigkeit halber erwaehnt.

DaVinci Resolve (Blackmagic Design) — ein professioneller Videoeditor mit integrierter Transkription ueber Whisper. Unterstuetzt viele Sprachen, allerdings ist die Qualitaet nicht mit spezialisierten Tools vergleichbar. Eine kostenlose Version ist verfuegbar. Timeline-Transkription fuer textbasiertes Editieren.

Subtitle Edit (nikse.dk) — ein kostenloser Open-Source-Untertitel-Editor fuer Windows (teilweise Linux-Unterstuetzung) mit integrierter Whisper-Transkription. Unterstuetzt 7+ Whisper-Engines (OpenAI Whisper, Purfview's Faster-Whisper-XXL, CPP, CPP cuBLAS, Const-me, CTranslate2, stable-ts, WhisperX), Stapelverarbeitung, automatische Uebersetzung, 100+ Sprachen. Das leistungsfaehigste kostenlose Tool zur Erstellung von Untertiteln aus Audio. Auf einer RTX A6000 werden 2 Stunden Audio in nur wenigen Minuten verarbeitet.

Subper / SubtitleWhisper (subtitlewhisper.com) — ein Online-Untertitel-Generator mit Whisper + Silero VAD. Online-Untertitel-Editor. Der kostenlose Plan ist eingeschraenkt, kostenpflichtige Plaene ab 9,99 $/Monat. GPT-Integration fuer Interpunktion und Absatzgliederung.


Browser-Erweiterungen und Online-Tools

Transkriptor — Web-App + Erweiterung fuer Chrome/Firefox + iOS/Android. Unterstuetzt viele Sprachen, automatische Diarisierung, Export in TXT/SRT/DOCX. Kostenlose Testversion, danach 9,99-30 $/Monat. Behauptet 99 % Genauigkeit (die tatsaechliche Genauigkeit variiert je nach Sprache).

TurboScribe (turboscribe.ai) — ein Webdienst mit 3 kostenlosen Transkriptionen pro Tag (jeweils bis zu 30 Min.). Viele Sprachen mit hoher Genauigkeit unterstuetzt. Kostenpflichtige Plaene ab ~10 $/Monat. Whisper im Hintergrund.

Wonderscribe — ein vollstaendig kostenloser Webdienst, allerdings mit hoeherer Fehlerrate (~16 % WER). Geeignet fuer Rohentwuerfe.

HuggingFace Spaces (huggingface.co/spaces/openai/whisper) — eine kostenlose Whisper-Demo von OpenAI. Datei hochladen und Text erhalten. Kostenlos, aber mit Einschraenkungen und Wartezeiten.


Mobile Apps

iOS

AppPreisOfflineHauptmerkmal
Aiko~5,99 $ einmalig100 %Einfachstes Drag-and-Drop
Whisper Notes6,99 $ einmalig100 %Systemweites Diktat ueber Fn
Whisper TranscriptionFreemium (Abo)iPhone 13+KI-Zusammenfassung, Chat mit Transkript
Just Press Record~4,99 $TeilweiseEin Tipp, Apple Watch, iCloud-Sync
Whisper: Speech to TextFreemiumVariiertEinfache Aufnahme + Transkription

Android

AppPreisOfflineHauptmerkmal
Voice NotebookKostenlos + PremiumMit SprachpaketBestbewertetes Diktat, 4,8 Sterne
SpeechnotesKostenlos, 5M+ DownloadsEingeschraenktPatentierte Interpunktions-Tastatur
SpeechTexterKostenlos, 80+ SprachenNeinGrundlegendes Voice-to-Text
Notely VoiceKostenlos, werbefreiJaWhisper auf dem Smartphone fuer lange Notizen

Plattformuebergreifend

AppPlattformenPreisMehrsprachig
TranskriptoriOS/Android/Web/Chrome/Firefox9,99-30 $/MonatJa
NottaiOS/Android/WebKostenlos 120 Min./Monat (3 Min./Sitzung)Qualitaet variiert
VomoiOS/AndroidFreemiumSprachnotizen + KI

Uebersichtstabelle: Beste Wahl nach Anwendungsfall

AnwendungsfallBeste WahlPreisHinweise
Schnelles Diktat in jedes FeldHandy, Whisper NotesKostenlos / 6,99 $Whisper-basiert
Offline-DateitranskriptionVibe, BuzzKostenlosWhisper-basiert
Ausgereiftes macOS-GUIMacWhisper Pro79,99 $ einmaligWhisper-basiert
Windows GPU-BeschleunigungWhisperDesktop, WhisperUIKostenlosWhisper-basiert
Untertitel fuer VideosSubtitle Edit + WhisperKostenlosWhisper-basiert
Videoeditor + UntertitelCapCutKostenlos100+ Sprachen
Self-Hosted-ServerWhishperKostenlosWhisper-basiert
Echtzeit (live)WhisperLiveKostenlosWhisper-basiert
Menschliche TranskriptionGoTranscript1,20-2,75 $/Min.Muttersprachler
Mobil iOSAiko~5,99 $Whisper-basiert
Mobil AndroidVoice NotebookKostenlosGoogle STT
Inhalte aus AufnahmenWhisperTranscribe~15 $/Monat57+ Formate
Meetings (Google Meet/Teams)Integrierte UntertitelIm Abo enthaltenJa

FAQ

Welche kostenlose App eignet sich am besten für die Transkription?

Für den Desktop sind Vibe und Buzz die besten kostenlosen Optionen — beide basieren auf Whisper und funktionieren komplett offline. Für Online-Transkription ohne Installation eignen sich TurboScribe (3 Dateien pro Tag bis 30 Minuten kostenlos) und GigaChat von Sber (Audio-Upload bis 2 Stunden mit Sprechererkennung und Zusammenfassung).

Kann ich Audio offline ohne Internet transkribieren?

Ja. Alle Whisper-basierten Desktop-Apps (Vibe, Buzz, MacWhisper, WhisperDesktop) funktionieren nach dem Download des Modells vollständig offline. Ihre Daten verlassen den Computer nicht, was vollständige Privatsphäre gewährleistet.

Welche Apps erkennen die russische Sprache am besten?

Die höchste Genauigkeit für Russisch bietet GigaAM von Sber (8,4 % WER). Unter den kostenlosen Verbraucher-Tools stechen GigaChat (Audio-Upload) und Yandex SpeechKit (Enterprise-API, 95–97 % Genauigkeit) hervor. Whisper-basierte Apps liefern akzeptable Qualität (~84 % Genauigkeit für Russisch).

Welche mobile App sollte ich für die Transkription auf dem Handy wählen?

Unter iOS sind Aiko (~5,99 $, komplett offline) und Whisper Notes (6,99 $, systemweite Diktierfunktion) die besten Optionen. Unter Android führt Voice Notebook (kostenlos, Bewertung 4,8, beste russische Diktierfunktion über Google STT).

Wie richte ich einen eigenen Transkriptionsserver ein?

Die beste Self-Hosted-Lösung ist Whishper: eine vollwertige Plattform mit Web-Oberfläche, die per Docker Compose bereitgestellt wird und Transkription über faster-whisper, Untertitelübersetzung sowie einen integrierten Editor umfasst. Für Echtzeit-Transkription eignet sich WhisperLive von Collabora.