OpenAI Whisper: Modeller, Dogruluk, Yetenekler ve Kullanim Rehberi
OpenAI Whisper, transkripsiyon endustrisini donusturen acik kaynakli konusma tanima modelidir. Bu rehberde tum Whisper surumlerini inceleyecek, model boyutlarini karsilastiracak, diller arasi dogrulugu olcecek, API'den yerel kuruluma kadar dagitim seceneklerini kesfedecek ve Whisper'in gercekten guclu oldugu ve yardima ihtiyac duydugu alanlari gosterecegiz.
Whisper Nedir
Whisper, OpenAI tarafindan gelistirilen ve Eylul 2022'de acik kaynak olarak yayinlanan bir otomatik konusma tanima (ASR) modelidir. Siradan bir STT sistemi degildir — Whisper, konusma transkripsiyonu icin gercekten dogru ve tamamen ucretsiz olan ilk model olmustur.
Whisper hakkinda temel bilgiler:
- Acik kaynak: kod ve model agirliklari MIT lisansi altinda GitHub'da mevcut
- 680.000 saat ses verisiyle egitilmis — yaklasik 77 yillik kesintisiz ses
- Cok dilli: Turkce, Ingilizce, Almanca, Fransizca, Rusca dahil 99 dil destegi
- Cok gorevli: transkripsiyon, Ingilizce'ye ceviri, dil algilama ve zaman damgasi olusturma — hepsi tek modelde
- Kodlayici-kod cozucu mimarisi: Transformer tabanli, 30 saniyelik mel-spektrogram segmentlerini isler
Whisper'dan once, kaliteli konusma tanima yalnizca ucretli bulut API'leri (Google Cloud Speech, Amazon Transcribe, Azure Speech) uzerinden erisilebilirdi. DeepSpeech ve Vosk gibi acik kaynak alternatifler dogruluk acisindan belirgin sekilde gerideydi. Whisper oyunun kurallarini degistirdi: artik herhangi bir gelistirici, ticari duzeyde konusma tanima elde edebilir — ucretsiz ve kendi donanminda calistirilabilir.
Whisper Neden Devrimciydi
Whisper'in basarisinin anahtari, egitim verilerinin hacmi ve cesitliligidir. 680.000 saat ses icerigi sunlari kapsiyordu:
- Duzinelerce dilde podcast ve videolar
- Farkli kayit kalitesinde sesler
- Aksanli, lehceli ve arka plan gurultulu konusmalar
- Cesitli platformlardan ses-metin ciftleri
Bu "zayif gozetim" yaklasimi, modelin ideal laboratuvar kayitlari yerine gercek dunya konusmasindan ogrenmesini sagladi. Sonuc olarak, Whisper gurultulu seste, aksanlarla ve idealden uzak kosullarda bile istikrarli dogruluk sunar.
Whisper Surum Gecmisi
Whisper v1 (Eylul 2022)
Ilk genel surum bes model boyutu iceriyordu: tiny, base, small, medium ve large. Basindan itibaren large model, ticari hizmetlerle kiyaslanabilir dogruluk gostermistir. Model hemen 99 dili destekledi, ancak bireysel diller icin kalite onemli olcude farklilk gosteriyordu.
Whisper v2 (Aralik 2022)
Sadece uc ay sonra OpenAI guncellenmis large-v2 modelini yayinladi. Temel iyilestirmeler:
- Bircok dilde azaltilmis Kelime Hata Orani (WER)
- Uzun ses kayitlarinin daha iyi islenmesi
- Aksanlar ve lehcelerle daha karli performans
- Daha az "halusilasyon" — modelin seste olmayan metin urettigi durumlar
Whisper v3 (Kasim 2023)
Large-v3 surumu onemli bir ileri adim oldu:
- 80 yerine 128 mel-spektrogram kanali (sesten daha fazla bilgi cikarilmasi)
- Gelistirilmis filtreleme ile daha buyuk veri setlerinde egitim
- Ingilizce olmayan diller icin belirgin dogruluk iyilestirmeleri
- Turkce icin WER temiz seste %5-7'ye dustu
Whisper v3 Turbo (Ekim 2024)
En son model — large-v3-turbo — hiz ve dogruluk arasinda bir denge kurar:
- Large-v3'ten 8 kat daha hizli, minimum dogruluk kaybiyla
- 1,55 milyar yerine 809 milyon parametre
- Kod cozucu 32 katmandan 4'e indirildi
- Hizin onemli oldugu uretim sistemleri icin ideal
- WER, large-v3'ten yalnizca %1-2 daha yuksek
Whisper Model Boyutlari: Tiny'den Large-v3'e
Whisper alti ana model sunar ve aralarindaki secim her zaman dogruluk, hiz ve donanim gereksinimleri arasinda bir odunlesimdir.
Model Karsilastirma Tablosu
| Model | Parametreler | VRAM | Gorecelik Hiz | WER (EN) | WER (TR) |
|---|---|---|---|---|---|
| tiny | 39M | ~1 GB | Cok hizli | ~%8 | ~%18 |
| base | 74M | ~1 GB | Hizli | ~%6 | ~%14 |
| small | 244M | ~2 GB | Orta | ~%4,5 | ~%9 |
| medium | 769M | ~5 GB | Yavas | ~%3,5 | ~%7 |
| large-v3 | 1550M | ~10 GB | Cok yavas | ~%2,5 | ~%5 |
| large-v3-turbo | 809M | ~6 GB | Hizli | ~%3 | ~%6 |
WER (Kelime Hata Orani) — yanlis tanilan kelimelerin yuzdesi. Dusuk olan daha iyidir. Degerler temiz ses icin verilmistir; gurultulu kayitlarda WER daha yuksek olacaktir.
Hangi Modeli Secmelisiniz
- tiny / base: deneyler, prototipler veya sinirli donanmida maksimum hiz gerektiginde. Dil algilama ve kaba transkripsiyon icin uygundur.
- small: bircok gorev icin optimal denge. Orta duzeyde kaynak gereksinimleriyle iyi dogruluk.
- medium: yuksek dogruluk gerektiginde ancak guclu bir GPU olmadginda. Turkce dahil cogu dilde iyi calisir.
- large-v3: tum diller icin maksimum dogruluk. Ciddi bir GPU gerektirir (10+ GB VRAM'li NVIDIA).
- large-v3-turbo: uretim icin en iyi secim — large-v3'e yakin dogruluk, onemli olcude daha yuksek hizda.
Turkce icin Whisper Dogrulugu
Turkce, Whisper'in iyi sonuclar verdigi dillerden biridir. Egitim verilerinde yeterli miktarda Turkce icerik bulunmasi buna katki saglamaktadir.
Gercek Performans Degerleri
Temiz seste iyi kayit kalitesiyle (podcastler, roportajlar, konferanslar):
- large-v3: WER %4-6
- large-v3-turbo: WER %5-7
- medium: WER %6-8
- small: WER %8-12
Zorlu seslerde (gurultu, birden fazla konusmaci, aksan):
- WER, large-v3 icin bile %12-25'e cikabilir
- Ozellikle ozel isimler, kisaltmalar ve sektor terminolojisi etkilenir
Turkce icin Rakiplerle Karsilastirma
| Hizmet | WER (TR, temiz) | Diarizasyon | Acik Kaynak |
|---|---|---|---|
| Whisper large-v3 | %4-6 | Hayir* | Evet |
| Google Cloud Speech | %5-7 | Evet | Hayir |
| Azure Speech | %5-8 | Evet | Hayir |
| Deepgram | %8-12 | Evet | Hayir |
*Yerlesik diarizasyon yok, ancak pyannote.audio gibi ucuncu taraf modullerle kullanilabilir.
Whisper, Turkce icin temel dogrulukta en iyi ticari cozumlerle kiyaslanabilir durumdadir, ancak hazir ozellikler (diarizasyon, uyarlanabilir modeller, akis tanima) acisindan geridedir. Modellerin ve hizmetlerin ayrintili karsilastirmasi icin transkripsiyon pazar rehberimize bakin.
Whisper Nasil Kullanilir
OpenAI Whisper API
Whisper'i kullanmanin en basit yolu, OpenAI'nin bulut API'sidir.
Avantajlar:
- Donanim veya kurulum gerekmez
- Her zaman en guncel model
- Basit REST API
Dezavantajlar:
- Maliyet: dakika basina $0,006
- Veriler OpenAI sunucularina gonderilir
- Dosya boyutu siniri: 25 MB
- Internet baglantisina ve hizmet kullanilabilirligine bagimli
Pratik maliyetler: 1 saat ses = $0,36, 10 saat = $3,60. Kucuk hacimler icin GPU satin almaktan daha ekonomiktir.
Yerel Kurulum
Veri gizliligine onem verenler veya buyuk hacimli ses isleyenler icin.
Minimum gereksinimler:
- Python 3.8+
- CPU icin: herhangi bir modern islemci (ancak yavas)
- GPU icin: CUDA destekli NVIDIA (small icin GTX 1060+, large-v3 icin RTX 3080+)
Orijinal Whisper pip uzerinden kurulur. Ses isleme icin FFmpeg de gereklidir. Kurulumdan sonra hem Python kutuphanesi hem de dosya transkripsiyonu icin CLI araci kullanilabilir.
Onemli: CPU'da large-v3 modeli ile transkripsiyon, GPU'ya kiyasla 10-30 kat daha uzun surebilir. Ciddi isler icin GPU pratik olarak zorunludur.
Optimize Edilmis Uygulamalar
Orijinal OpenAI Whisper en verimli uygulama degildir. Topluluk onemli olcude daha hizli cesitli alternatifler olusturmustur:
faster-whisper — CTranslate2 uzerine kurulu, ayni kalitede orijinalden 4 kata kadar daha hizli. Daha dusuk bellek tuketimi, int8 niceleme destegi. Uretim dagitimari icin en populer secim.
whisper.cpp — CPU icin optimize edilmis saf C/C++ uygulamasi. Mac (Metal ile Apple Silicon), Windows, Linux, Android ve hatta Raspberry Pi'da calisir. GPU'suz gomulu sistemler ve cihazlar icin ideal.
WhisperX — Ek yeteneklere sahip Whisper uzantisi: kelime duzeyi zaman damgasi hizalamasi (zorlandirilmis hizalama), pyannote.audio ile konusmaci diarizasyonu ve hizlandirma icin toplu cikarim. Diarizasyon gerektiginde en iyi secim.
Insanely-Fast-Whisper — Guclu GPU'larda maksimum hiz icin Hugging Face Transformers uzerinden toplu cikarim kullanir. RTX 4090'da sesi gercek zamanin 100 katindan daha hizli transkribe edebilir.
Whisper Tabanli Hazir Hizmetler
Herkes kurulum ve yapilandirmayla ugrasmak istemez. Hazir cozumler mevcuttur:
Diktovka (diktovka.rf) — Whisper uzerine kurulmus ses transkripsiyon web hizmeti. Bir dosya yukleyin, bir baglanti yapistirin veya sesinizi kaydedin — konusmaci diarizasyonu ve yapay zeka ozeti ile metin alin. Kurulum gerekmez: her sey tarayicida calisir, isleme guclu GPU sunucularinda gerceklesir.
Masaustu uygulamalari: Vibe (ucretsiz, cok platformlu), Buzz (acik kaynak GUI), MacWhisper (yerel macOS), Whisper Notes (iOS + Mac). Daha fazla masaustu ve mobil transkripsiyon uygulamasi icin transkripsiyon uygulamalari rehberimize bakin.
Whisper Neler Yapabilir, Neler Yapamaz
Guclu Yanlari
99 dilde transkripsiyon. Whisper, duzinelerce dilde gercekten iyi calisan sayili modellerden biridir. Turkce, Ingilizce, Almanca, Fransizca ve diger buyuk diller icin dogruluk ticari cozumlerle kiyaslanabilir.
Ingilizce'ye ceviri. Whisper konusmayi yalnizca transkribe etmekle kalmaz, ayni zamanda aninda Ingilizce'ye cevirebilir. Bu, dogrudan modele yerlestirilmis benzersiz bir yetenektir.
Dil algilama. Model, sesin ilk 30 saniyesinde konusma dilini otomatik olarak belirler. Ana diller icin algilama dogrulugu %95'i asar.
Zaman damgasi olusturma. Whisper, her segment icin zaman damgalariyla metin dondurur (genellikle 5-30 saniye). WhisperX ile kelime duzeyi zaman damgalari elde edilebilir.
Gurultuye dayaniklilik. Internetten gercek dunya verileri uzerinde egitilmis olmasi sayesinde Whisper, gurultulu sesi makul olcude iyi isler — arka plan muzigi, sokak gurultusu, ortalama mikrofonlar.
Sinirliliklari
Konusmaci diarizasyonu yok. Whisper konusmacilari ayirt etmez — her cumleyi kimin soyledigini soylemez. Bunun icin pyannote.audio gibi ayri bir modul gereklidir. Diktovka gibi hizmetlerin Whisper'in uzerine diarizasyon eklemesinin nedeni tam olarak budur — boylece kimin ne soyledigini gorebilirsiniz.
Gercek zamanli akis yok. Whisper onceden kaydedilmis ses ile calisir. Kutusundan ciktigi gibi gercek zamanli konusma transkribe edemez (whisper_streaming gibi deneysel cozumler mevcut olsa da).
Halusilasyonlar. Whisper bazen seste olmayan metinler uretir — ozellikle sessizlik veya cok dusuk konusma sirasinda. Bu, kodlayici-kod cozucu modellerin bilinen bir sorunudur.
Alana ozgu terminoloji. Ek ayarlama yapilmadan Whisper tibbi, hukuki, teknik ve diger uzmanlik terimlerinde hatalar yapabilir. Ozel sozlukler icin yerlesik bir mekanizma yoktur.
Whisper ve Rakipler: Tam Karsilastirma
| Ozellik | Whisper | Google Speech | Azure Speech | Deepgram | AssemblyAI |
|---|---|---|---|---|---|
| Acik kaynak | Evet | Hayir | Hayir | Hayir | Hayir |
| Diller | 99 | 125+ | 100+ | 36 | 20+ |
| Turkce | Iyi | Iyi | Iyi | Temel | Hayir |
| Diarizasyon | Hayir* | Evet | Evet | Evet | Evet |
| Gercek zamanli | Hayir* | Evet | Evet | Evet | Evet |
| Yerel dagitim | Evet | Hayir | Hayir | Hayir | Hayir |
| Ucretsiz | Evet | Hayir | Hayir | Hayir | Hayir |
| API fiyat/dk | $0,006 | ~$0,016 | ~$0,016 | ~$0,015 | ~$0,015 |
*Yerlesik degil, ancak ucuncu taraf moduller (pyannote.audio, whisper_streaming) ile kullanilabilir.
Whisper'i secin:
- Tam veri gizliligi gerektiginde (yerel dagitim)
- Butce sinirli veya sifir oldugunda
- Nadir dillerle calismada
- Lisans kisitlamasi olmadan kendi urunune entegre etmede
Ticari bir cozum secin:
- Gercek zamanli tanima gerektiginde
- Hazir diarizasyon kritik oneme sahip oldugunda
- Dagitim ve bakim icin kaynak yok oldugunda
- Garantili SLA gerektiginde
Whisper Ekosistemi
Whisper etrafinda guclu bir arac ve hizmet ekosistemi olusmustur:
Cikarim optimizasyonu:
- faster-whisper: CTranslate2 arka ucu, 4x hizlanma
- whisper.cpp: CPU icin C++ uygulamasi
- Insanely-Fast-Whisper: GPU'da toplu cikarim
Genisletilmis yetenekler:
- WhisperX: diarizasyon + kelime duzeyi zaman damgalari
- pyannote.audio: konusmaci diarizasyonu
- whisper_streaming: deneysel gercek zamanli tanima
GUI'ler ve uygulamalar:
- Vibe, Buzz, MacWhisper — masaustu istemciler
- Whishper — kendi barindirmali web platformu
- Diktovka — diarizasyon ve yapay zeka ozetiyle bulut hizmeti
Whisper'in Gelecegi
Neler Beklenmeli
Whisper gelismeye devam ediyor ve cesitli trendler ortaya cikiyor:
Kalite kaybi olmadan hiz. Large-v3'ten large-v3-turbo'ya gecis yonu gosteriyor: OpenAI, onemli olcude daha dusuk hesaplama maliyetiyle ayni dogrulugu sunan modeller uzerinde calisiyor. Gelecek surumlerinin daha da hizli olmasi bekleniyor.
Ingilizce olmayan diller icin iyilestirme. Her surumde Whisper, egitim verilerinde baslangicta yeterince temsil edilmeyen diller icin daha dogru hale geliyor. Turkce zaten iyi bir seviyede, ancak ozel terminoloji ile calismada iyilestirme potansiyeli var.
LLM'lerle entegrasyon. Transkript son isleme icin Whisper + GPT/Claude kombinasyonu yeni olanaklar aciyor: otomatik hata duzeltme, anahtar konu cikarma, ozet olusturma ve kayit icerigi hakkinda sorulara cevap verme.
Ekosistem genislemesi. Whisper uzerine kurulu arac ve hizmet sayisi artmaya devam ediyor. Belirli kullanim alanlari icin uzmanlasmis cozumler ortaya cikiyor: tibbi transkripsiyon, hukuki tutanaklar, egitim alt yazilari ve podcast produksiyon.
Sonuc
OpenAI Whisper, konusma tanima alanindaki en onemli acik kaynak modellerden biridir. Kaliteli transkripsiyona erisimi demokratiklestirerek bireysel gelistiricilerden buyuk isletmelere kadar herkes icin erisilebilir hale getirmistir.
Whisper, Turkce dahil bircok dilde mukemmel sonuclar sunar. Faster-whisper gibi optimize edilmis uygulamalar ve Diktovka gibi kullanisli hizmetlerle Whisper'i kullanmak her zamankinden daha kolaydir.
Dagitim seciminiz ihtiyaclariniza baglidir: basitlik icin OpenAI API, gizlilik icin yerel kurulum veya kolaylik icin hazir bir hizmet. Her durumda Whisper, bilinmesi ve kullanilmasi gereken bir aractir.
FAQ
OpenAI Whisper ucretsiz mi?
Evet, Whisper MIT lisansi altinda acik kaynakli bir modeldir. Kod ve model agirliklari GitHub'da ucretsiz olarak mevcuttur. Yerel kurulum tamamen ucretsizdir. OpenAI bulut API'si dakika basina $0,006 ucretlidir.
Hangi Whisper modelini secmeliyim?
Maksimum dogruluk icin large-v3'u secin (Turkce icin WER %3-5, 10+ GB VRAM'li GPU gerektirir). Uretim kullanimi icin large-v3-turbo minimum dogruluk kaybiyla 8 kat daha hizlidir. Mutevazi donanim uzerinde denemeler icin small veya medium iyi calisir.
Whisper konusma tanima konusunda ne kadar dogru?
Temiz ses kayitlarinda large-v3 modeli Turkce icin %3-5 WER gosterir — en iyi ticari cozumlerle ayni seviyede. Gurultulu veya cok konusmacili seste WER %10-20'ye yukeselebilir.
Whisper cevrimdisi kullanilabilir mi?
Evet, Whisper yerel olarak kurulabilir ve tamamen cevrimdisi kullanilabilir. Python 3.8+, FFmpeg ve CUDA destekli NVIDIA GPU gerekir. CPU'da transkripsiyon calisir ancak GPU'ya gore 10-30 kat daha yavas olur.
Whisper icin hangi ekran karti gerekli?
Small model icin 2 GB VRAM'li NVIDIA GTX 1060 yeterlidir. Large-v3 icin 10+ GB VRAM'li bir kart gerekir — RTX 3080 veya daha iyisi. Large-v3-turbo modeli 6 GB VRAM ile calisir. Faster-whisper ve whisper.cpp gibi optimize edilmis uygulamalar bu gereksinimleri azaltabilir.