Transkriptions-Apps und -Tools: Ein umfassender Leitfaden
Ein umfassender Leitfaden zu Apps und Tools fuer Sprachtranskription: Whisper-basierte Desktop-GUIs, Self-Hosted-Loesungen, Videoeditoren mit integrierter Transkription, browserbasierte Dienste und mobile Apps fuer iOS und Android. Alle Optionen — von vollstaendig kostenlosen Open-Source-Loesungen bis hin zu kostenpflichtigen Tools mit erweiterten Funktionen.
Desktop-Apps: Whisper mit benutzerfreundlicher Oberflaeche
Fuer alle, die eine einfache GUI ohne Kommandozeile bevorzugen, ist ein ganzes Oekosystem von Whisper-basierten Desktop-Apps entstanden. Alle arbeiten offline, und Ihre Daten verlassen niemals Ihren Computer — mehr dazu in «Lokale vs. Cloud-Transkription».
Handy (handy.computer) — eine kostenlose Open-Source-App fuer macOS/Windows/Linux mit einem einzigartigen Ansatz: Push-to-Talk-Diktat direkt in jedes Textfeld. Tastenkombination druecken, sprechen, loslassen — der Text wird im aktiven Fenster eingefuegt. Ideal als Tastaturersatz beim Tippen, Chatten und Notizenmachen. Basiert auf Whisper, vollstaendig offline und privat. Gesponsert von Wordcab und Bolt AI.
Vibe (thewh1teagle.github.io/vibe) — eine der besten kostenlosen Open-Source-Loesungen mit ueber 5.000 Sternen auf GitHub. Plattformuebergreifend (Windows, macOS, Linux), basiert auf Tauri + whisper.cpp. Unterstuetzt GPU-Beschleunigung (NVIDIA, AMD, Apple Silicon ueber Vulkan/CoreML), ueber 90 Sprachen, Sprecher-Diarisierung, Export in SRT/VTT/TXT/DOCX/PDF/JSON, YouTube-Link-Transkription ueber yt-dlp, Mikrofonaufnahme, Zusammenfassung ueber Claude/Ollama, HTTP-API mit Swagger-Dokumentation und sogar einen CLI-Modus. Der funktionsreichste kostenlose Desktop-Client, der derzeit verfuegbar ist. Installer ~24 MB, nach Installation ~87 MB + Modell.
Buzz (buzzcaptions.com) — eine kostenlose Open-Source-GUI fuer Whisper. Plattformuebergreifend, unterstuetzt mehrere Backends (whisper.cpp, faster-whisper), Sprechertrennung, Untertitel-Export. Minimalistischer als Vibe, aber stabil und bewaehrt.
MacWhisper / Whisper Transcription (App Store, macupdate.com) — eine native macOS-App. Die kostenlose Version enthaelt die Modelle Base und Small. Pro-Abonnement: 4,99 $/Woche, 8,99 $/Monat, 29,99 $/Jahr oder 79,99 $ einmalig. Pro schaltet Medium- und Large-Modelle frei, Stapelverarbeitung, Systemton-Aufnahme (Zoom-Anrufe, Podcasts), Sprechertrennung, Lesemodus und ChatGPT-Integration zur Zusammenfassung. Die ausgereifteste Whisper-Oberflaeche fuer Mac. Bewertung ~4,0 auf MacUpdate.
Whisper Notes (whispernotes.app) — 6,99 $ einmalig fuer iOS + Mac. Ueber 60.000 Nutzer. Hauptmerkmal: systemweites Diktat — Fn in einer beliebigen App gedrueckt halten, sprechen, loslassen, und der Text wird eingefuegt. Import von Audio-/Videodateien mit Streaming-Ergebnissen. Vollstaendig offline, nutzt Whisper Large V3 Turbo auf Apple Silicon.
WhisperDesktop (github.com/Const-me/Whisper) — eine kostenlose Windows-App mit GPU-Beschleunigung ueber DirectCompute/GPGPU. Deutlich schneller als das originale Whisper: 3:24 Min. Audio in 19 Sekunden auf einer GeForce 1080Ti verarbeitet (gegenueber 45 Sek. mit PyTorch+CUDA). Datei-Transkription + Echtzeit-Mikrofonaufnahme. Empfohlenes Modell: ggml-medium.bin (~1,42 GB).
WhisperUI (Microsoft Store) — eine kostenlose Windows-App. GPU-Beschleunigung ueber CPU, OpenCL, NVIDIA CUDA 11/12. Vollstaendig offline, Untertitel-Export in SRT/VTT, Stapelverarbeitung.
Aiko (~5,99 $, iOS/Mac) — die einfachste Whisper-App fuer Apple. Audiodatei per Drag-and-Drop einfuegen und Text erhalten. 100 % on-device, ideal fuer alle, die Transkription auf Knopfdruck ohne Konfiguration wuenschen.
Whisper Transcription (iOS App Store, Freemium) — eine mobile App mit On-Device- und Cloud-Modus. Die Share-Erweiterung ermoeglicht die Transkription von Sprachnachrichten aus iMessage, WhatsApp und Sprachmemos. Erfordert iPhone 13+ fuer On-Device-Verarbeitung. KI-Zusammenfassung, Chat mit dem Transkript. Bewertung 4,6+.
Self-Hosted-Loesungen: Fuer den eigenen Server
Fuer alle, die einen vollwertigen Transkriptionsdienst auf dem eigenen Server oder im lokalen Netzwerk betreiben moechten.
Whishper (github.com/pluja/whishper) — eine voll ausgestattete Self-Hosted-Plattform mit Web-Oberflaeche. Enthaelt faster-whisper fuer Transkription, LibreTranslate/Argos Translate fuer Untertiteluebersetzung (ueber 60 Sprachen), einen integrierten Untertitel-Editor und Export in JSON/TXT/VTT/SRT. Bereitstellung ueber Docker Compose (5 Container: API, Backend, Frontend, Uebersetzung, MongoDB). Nach der Installation 100 % offline. Eine ausgezeichnete Wahl fuer Teams, die einen privaten Dienst ohne Cloud benoetigen.
WhisperLive (github.com/collabora/WhisperLive, Collabora) — eine Open-Source-Loesung fuer Echtzeit-Transkription. WebSocket-Server: Mikrofon oder Datei verbinden und Text mit minimaler Latenz erhalten. Unterstuetzt faster-whisper-, TensorRT- und OpenVINO-Backends. Python-Client und JS-Demo. Geeignet fuer Live-Transkription von Meetings und Konferenzen.
WhisperTranscribe (whispertranscribe.com) — ein Cloud-Dienst mit Desktop-App fuer Windows. Kostenlose 60-Minuten-Testversion ohne Kreditkarte. Nutzt Whisper + AssemblyAI. Ueber Transkription hinaus: 57+ Inhaltstypen aus einer einzigen Aufnahme (Beitraege, Zusammenfassungen, Marketingmaterialien), KI-Training auf den Stil des Nutzers, YouTube/Vimeo-Link-Transkription, Podcast-Bibliothek mit 2,5 Millionen Eintraegen. 55+ Sprachen. Abonnement ~15 $/Monat.
Videoeditoren mit integrierter Transkription
Eine eigene Kategorie: Videoeditoren, die Audio als Teil des Workflows transkribieren koennen.
CapCut (ByteDance/TikTok) — ein kostenloser Videoeditor mit leistungsstarker Auto-Captions-Funktion. Unterstuetzt ueber 100 Sprachen, einschliesslich Deutsch. Transkribiert Sprache in Untertitel, ermoeglicht transkriptbasiertes Editieren, Untertiteluebersetzung und zweisprachige Untertitelerstellung. Web-Version, Desktop (Windows/Mac) und mobile Apps. Kostenlos. Einschraenkung: auf Untertitel ausgerichtet, nicht auf vollstaendige Dokumenttranskripte.
Descript — ein leistungsstarker Audio-/Videoeditor mit transkriptbasiertem Editieren (ein Wort aus dem Text loeschen und es wird aus dem Video geschnitten). Unterstuetzt viele nicht-lateinische Sprachen nicht. Der Vollstaendigkeit halber erwaehnt.
DaVinci Resolve (Blackmagic Design) — ein professioneller Videoeditor mit integrierter Transkription ueber Whisper. Unterstuetzt viele Sprachen, allerdings ist die Qualitaet nicht mit spezialisierten Tools vergleichbar. Eine kostenlose Version ist verfuegbar. Timeline-Transkription fuer textbasiertes Editieren.
Subtitle Edit (nikse.dk) — ein kostenloser Open-Source-Untertitel-Editor fuer Windows (teilweise Linux-Unterstuetzung) mit integrierter Whisper-Transkription. Unterstuetzt 7+ Whisper-Engines (OpenAI Whisper, Purfview's Faster-Whisper-XXL, CPP, CPP cuBLAS, Const-me, CTranslate2, stable-ts, WhisperX), Stapelverarbeitung, automatische Uebersetzung, 100+ Sprachen. Das leistungsfaehigste kostenlose Tool zur Erstellung von Untertiteln aus Audio. Auf einer RTX A6000 werden 2 Stunden Audio in nur wenigen Minuten verarbeitet.
Subper / SubtitleWhisper (subtitlewhisper.com) — ein Online-Untertitel-Generator mit Whisper + Silero VAD. Online-Untertitel-Editor. Der kostenlose Plan ist eingeschraenkt, kostenpflichtige Plaene ab 9,99 $/Monat. GPT-Integration fuer Interpunktion und Absatzgliederung.
Browser-Erweiterungen und Online-Tools
Transkriptor — Web-App + Erweiterung fuer Chrome/Firefox + iOS/Android. Unterstuetzt viele Sprachen, automatische Diarisierung, Export in TXT/SRT/DOCX. Kostenlose Testversion, danach 9,99-30 $/Monat. Behauptet 99 % Genauigkeit (die tatsaechliche Genauigkeit variiert je nach Sprache).
TurboScribe (turboscribe.ai) — ein Webdienst mit 3 kostenlosen Transkriptionen pro Tag (jeweils bis zu 30 Min.). Viele Sprachen mit hoher Genauigkeit unterstuetzt. Kostenpflichtige Plaene ab ~10 $/Monat. Whisper im Hintergrund.
Wonderscribe — ein vollstaendig kostenloser Webdienst, allerdings mit hoeherer Fehlerrate (~16 % WER). Geeignet fuer Rohentwuerfe.
HuggingFace Spaces (huggingface.co/spaces/openai/whisper) — eine kostenlose Whisper-Demo von OpenAI. Datei hochladen und Text erhalten. Kostenlos, aber mit Einschraenkungen und Wartezeiten.
Mobile Apps
iOS
| App | Preis | Offline | Hauptmerkmal |
|---|---|---|---|
| Aiko | ~5,99 $ einmalig | 100 % | Einfachstes Drag-and-Drop |
| Whisper Notes | 6,99 $ einmalig | 100 % | Systemweites Diktat ueber Fn |
| Whisper Transcription | Freemium (Abo) | iPhone 13+ | KI-Zusammenfassung, Chat mit Transkript |
| Just Press Record | ~4,99 $ | Teilweise | Ein Tipp, Apple Watch, iCloud-Sync |
| Whisper: Speech to Text | Freemium | Variiert | Einfache Aufnahme + Transkription |
Android
| App | Preis | Offline | Hauptmerkmal |
|---|---|---|---|
| Voice Notebook | Kostenlos + Premium | Mit Sprachpaket | Bestbewertetes Diktat, 4,8 Sterne |
| Speechnotes | Kostenlos, 5M+ Downloads | Eingeschraenkt | Patentierte Interpunktions-Tastatur |
| SpeechTexter | Kostenlos, 80+ Sprachen | Nein | Grundlegendes Voice-to-Text |
| Notely Voice | Kostenlos, werbefrei | Ja | Whisper auf dem Smartphone fuer lange Notizen |
Plattformuebergreifend
| App | Plattformen | Preis | Mehrsprachig |
|---|---|---|---|
| Transkriptor | iOS/Android/Web/Chrome/Firefox | 9,99-30 $/Monat | Ja |
| Notta | iOS/Android/Web | Kostenlos 120 Min./Monat (3 Min./Sitzung) | Qualitaet variiert |
| Vomo | iOS/Android | Freemium | Sprachnotizen + KI |
Uebersichtstabelle: Beste Wahl nach Anwendungsfall
| Anwendungsfall | Beste Wahl | Preis | Hinweise |
|---|---|---|---|
| Schnelles Diktat in jedes Feld | Handy, Whisper Notes | Kostenlos / 6,99 $ | Whisper-basiert |
| Offline-Dateitranskription | Vibe, Buzz | Kostenlos | Whisper-basiert |
| Ausgereiftes macOS-GUI | MacWhisper Pro | 79,99 $ einmalig | Whisper-basiert |
| Windows GPU-Beschleunigung | WhisperDesktop, WhisperUI | Kostenlos | Whisper-basiert |
| Untertitel fuer Videos | Subtitle Edit + Whisper | Kostenlos | Whisper-basiert |
| Videoeditor + Untertitel | CapCut | Kostenlos | 100+ Sprachen |
| Self-Hosted-Server | Whishper | Kostenlos | Whisper-basiert |
| Echtzeit (live) | WhisperLive | Kostenlos | Whisper-basiert |
| Menschliche Transkription | GoTranscript | 1,20-2,75 $/Min. | Muttersprachler |
| Mobil iOS | Aiko | ~5,99 $ | Whisper-basiert |
| Mobil Android | Voice Notebook | Kostenlos | Google STT |
| Inhalte aus Aufnahmen | WhisperTranscribe | ~15 $/Monat | 57+ Formate |
| Meetings (Google Meet/Teams) | Integrierte Untertitel | Im Abo enthalten | Ja |
FAQ
Welche kostenlose App eignet sich am besten für die Transkription?
Für den Desktop sind Vibe und Buzz die besten kostenlosen Optionen — beide basieren auf Whisper und funktionieren komplett offline. Für Online-Transkription ohne Installation eignen sich TurboScribe (3 Dateien pro Tag bis 30 Minuten kostenlos) und GigaChat von Sber (Audio-Upload bis 2 Stunden mit Sprechererkennung und Zusammenfassung).
Kann ich Audio offline ohne Internet transkribieren?
Ja. Alle Whisper-basierten Desktop-Apps (Vibe, Buzz, MacWhisper, WhisperDesktop) funktionieren nach dem Download des Modells vollständig offline. Ihre Daten verlassen den Computer nicht, was vollständige Privatsphäre gewährleistet.
Welche Apps erkennen die russische Sprache am besten?
Die höchste Genauigkeit für Russisch bietet GigaAM von Sber (8,4 % WER). Unter den kostenlosen Verbraucher-Tools stechen GigaChat (Audio-Upload) und Yandex SpeechKit (Enterprise-API, 95–97 % Genauigkeit) hervor. Whisper-basierte Apps liefern akzeptable Qualität (~84 % Genauigkeit für Russisch).
Welche mobile App sollte ich für die Transkription auf dem Handy wählen?
Unter iOS sind Aiko (~5,99 $, komplett offline) und Whisper Notes (6,99 $, systemweite Diktierfunktion) die besten Optionen. Unter Android führt Voice Notebook (kostenlos, Bewertung 4,8, beste russische Diktierfunktion über Google STT).
Wie richte ich einen eigenen Transkriptionsserver ein?
Die beste Self-Hosted-Lösung ist Whishper: eine vollwertige Plattform mit Web-Oberfläche, die per Docker Compose bereitgestellt wird und Transkription über faster-whisper, Untertitelübersetzung sowie einen integrierten Editor umfasst. Für Echtzeit-Transkription eignet sich WhisperLive von Collabora.