OpenAI Whisper: Modeller, Dogruluk, Yetenekler ve Kullanim Rehberi

28 Mart 2026·20 dk okuma

OpenAI Whisper, transkripsiyon endustrisini donusturen acik kaynakli konusma tanima modelidir. Bu rehberde tum Whisper surumlerini inceleyecek, model boyutlarini karsilastiracak, diller arasi dogrulugu olcecek, API'den yerel kuruluma kadar dagitim seceneklerini kesfedecek ve Whisper'in gercekten guclu oldugu ve yardima ihtiyac duydugu alanlari gosterecegiz.

Whisper Nedir

Whisper, OpenAI tarafindan gelistirilen ve Eylul 2022'de acik kaynak olarak yayinlanan bir otomatik konusma tanima (ASR) modelidir. Siradan bir STT sistemi degildir — Whisper, konusma transkripsiyonu icin gercekten dogru ve tamamen ucretsiz olan ilk model olmustur.

Whisper hakkinda temel bilgiler:

Acik kaynak: kod ve model agirliklari MIT lisansi altinda GitHub'da mevcut
680.000 saat ses verisiyle egitilmis — yaklasik 77 yillik kesintisiz ses
Cok dilli: Turkce, Ingilizce, Almanca, Fransizca, Rusca dahil 99 dil destegi
Cok gorevli: transkripsiyon, Ingilizce'ye ceviri, dil algilama ve zaman damgasi olusturma — hepsi tek modelde
Kodlayici-kod cozucu mimarisi: Transformer tabanli, 30 saniyelik mel-spektrogram segmentlerini isler

Whisper'dan once, kaliteli konusma tanima yalnizca ucretli bulut API'leri (Google Cloud Speech, Amazon Transcribe, Azure Speech) uzerinden erisilebilirdi. DeepSpeech ve Vosk gibi acik kaynak alternatifler dogruluk acisindan belirgin sekilde gerideydi. Whisper oyunun kurallarini degistirdi: artik herhangi bir gelistirici, ticari duzeyde konusma tanima elde edebilir — ucretsiz ve kendi donanminda calistirilabilir.

Whisper Neden Devrimciydi

Whisper'in basarisinin anahtari, egitim verilerinin hacmi ve cesitliligidir. 680.000 saat ses icerigi sunlari kapsiyordu:

Duzinelerce dilde podcast ve videolar
Farkli kayit kalitesinde sesler
Aksanli, lehceli ve arka plan gurultulu konusmalar
Cesitli platformlardan ses-metin ciftleri

Bu "zayif gozetim" yaklasimi, modelin ideal laboratuvar kayitlari yerine gercek dunya konusmasindan ogrenmesini sagladi. Sonuc olarak, Whisper gurultulu seste, aksanlarla ve idealden uzak kosullarda bile istikrarli dogruluk sunar.

Whisper Surum Gecmisi

Whisper v1 (Eylul 2022)

Ilk genel surum bes model boyutu iceriyordu: tiny, base, small, medium ve large. Basindan itibaren large model, ticari hizmetlerle kiyaslanabilir dogruluk gostermistir. Model hemen 99 dili destekledi, ancak bireysel diller icin kalite onemli olcude farklilk gosteriyordu.

Whisper v2 (Aralik 2022)

Sadece uc ay sonra OpenAI guncellenmis large-v2 modelini yayinladi. Temel iyilestirmeler:

Bircok dilde azaltilmis Kelime Hata Orani (WER)
Uzun ses kayitlarinin daha iyi islenmesi
Aksanlar ve lehcelerle daha karli performans
Daha az "halusilasyon" — modelin seste olmayan metin urettigi durumlar

Whisper v3 (Kasim 2023)

Large-v3 surumu onemli bir ileri adim oldu:

80 yerine 128 mel-spektrogram kanali (sesten daha fazla bilgi cikarilmasi)
Gelistirilmis filtreleme ile daha buyuk veri setlerinde egitim
Ingilizce olmayan diller icin belirgin dogruluk iyilestirmeleri
Turkce icin WER temiz seste %5-7'ye dustu

Whisper v3 Turbo (Ekim 2024)

En son model — large-v3-turbo — hiz ve dogruluk arasinda bir denge kurar:

Large-v3'ten 8 kat daha hizli, minimum dogruluk kaybiyla
1,55 milyar yerine 809 milyon parametre
Kod cozucu 32 katmandan 4'e indirildi
Hizin onemli oldugu uretim sistemleri icin ideal
WER, large-v3'ten yalnizca %1-2 daha yuksek

Whisper Model Boyutlari: Tiny'den Large-v3'e

Whisper alti ana model sunar ve aralarindaki secim her zaman dogruluk, hiz ve donanim gereksinimleri arasinda bir odunlesimdir.

Model Karsilastirma Tablosu

Model	Parametreler	VRAM	Gorecelik Hiz	WER (EN)	WER (TR)
tiny	39M	~1 GB	Cok hizli	~%8	~%18
base	74M	~1 GB	Hizli	~%6	~%14
small	244M	~2 GB	Orta	~%4,5	~%9
medium	769M	~5 GB	Yavas	~%3,5	~%7
large-v3	1550M	~10 GB	Cok yavas	~%2,5	~%5
large-v3-turbo	809M	~6 GB	Hizli	~%3	~%6

WER (Kelime Hata Orani) — yanlis tanilan kelimelerin yuzdesi. Dusuk olan daha iyidir. Degerler temiz ses icin verilmistir; gurultulu kayitlarda WER daha yuksek olacaktir.

Hangi Modeli Secmelisiniz

tiny / base: deneyler, prototipler veya sinirli donanmida maksimum hiz gerektiginde. Dil algilama ve kaba transkripsiyon icin uygundur.
small: bircok gorev icin optimal denge. Orta duzeyde kaynak gereksinimleriyle iyi dogruluk.
medium: yuksek dogruluk gerektiginde ancak guclu bir GPU olmadginda. Turkce dahil cogu dilde iyi calisir.
large-v3: tum diller icin maksimum dogruluk. Ciddi bir GPU gerektirir (10+ GB VRAM'li NVIDIA).
large-v3-turbo: uretim icin en iyi secim — large-v3'e yakin dogruluk, onemli olcude daha yuksek hizda.

Turkce icin Whisper Dogrulugu

Turkce, Whisper'in iyi sonuclar verdigi dillerden biridir. Egitim verilerinde yeterli miktarda Turkce icerik bulunmasi buna katki saglamaktadir.

Gercek Performans Degerleri

Temiz seste iyi kayit kalitesiyle (podcastler, roportajlar, konferanslar):

large-v3: WER %4-6
large-v3-turbo: WER %5-7
medium: WER %6-8
small: WER %8-12

Zorlu seslerde (gurultu, birden fazla konusmaci, aksan):

WER, large-v3 icin bile %12-25'e cikabilir
Ozellikle ozel isimler, kisaltmalar ve sektor terminolojisi etkilenir

Turkce icin Rakiplerle Karsilastirma

Hizmet	WER (TR, temiz)	Diarizasyon	Acik Kaynak
Whisper large-v3	%4-6	Hayir*	Evet
Google Cloud Speech	%5-7	Evet	Hayir
Azure Speech	%5-8	Evet	Hayir
Deepgram	%8-12	Evet	Hayir

*Yerlesik diarizasyon yok, ancak pyannote.audio gibi ucuncu taraf modullerle kullanilabilir.

Whisper, Turkce icin temel dogrulukta en iyi ticari cozumlerle kiyaslanabilir durumdadir, ancak hazir ozellikler (diarizasyon, uyarlanabilir modeller, akis tanima) acisindan geridedir. Modellerin ve hizmetlerin ayrintili karsilastirmasi icin transkripsiyon pazar rehberimize bakin.

Whisper Nasil Kullanilir

OpenAI Whisper API

Whisper'i kullanmanin en basit yolu, OpenAI'nin bulut API'sidir.

Avantajlar:

Donanim veya kurulum gerekmez
Her zaman en guncel model
Basit REST API

Dezavantajlar:

Maliyet: dakika basina $0,006
Veriler OpenAI sunucularina gonderilir
Dosya boyutu siniri: 25 MB
Internet baglantisina ve hizmet kullanilabilirligine bagimli

Pratik maliyetler: 1 saat ses = $0,36, 10 saat = $3,60. Kucuk hacimler icin GPU satin almaktan daha ekonomiktir.

Yerel Kurulum

Veri gizliligine onem verenler veya buyuk hacimli ses isleyenler icin.

Minimum gereksinimler:

Python 3.8+
CPU icin: herhangi bir modern islemci (ancak yavas)
GPU icin: CUDA destekli NVIDIA (small icin GTX 1060+, large-v3 icin RTX 3080+)

Orijinal Whisper pip uzerinden kurulur. Ses isleme icin FFmpeg de gereklidir. Kurulumdan sonra hem Python kutuphanesi hem de dosya transkripsiyonu icin CLI araci kullanilabilir.

Onemli: CPU'da large-v3 modeli ile transkripsiyon, GPU'ya kiyasla 10-30 kat daha uzun surebilir. Ciddi isler icin GPU pratik olarak zorunludur.

Optimize Edilmis Uygulamalar

Orijinal OpenAI Whisper en verimli uygulama degildir. Topluluk onemli olcude daha hizli cesitli alternatifler olusturmustur:

faster-whisper — CTranslate2 uzerine kurulu, ayni kalitede orijinalden 4 kata kadar daha hizli. Daha dusuk bellek tuketimi, int8 niceleme destegi. Uretim dagitimari icin en populer secim.

whisper.cpp — CPU icin optimize edilmis saf C/C++ uygulamasi. Mac (Metal ile Apple Silicon), Windows, Linux, Android ve hatta Raspberry Pi'da calisir. GPU'suz gomulu sistemler ve cihazlar icin ideal.

WhisperX — Ek yeteneklere sahip Whisper uzantisi: kelime duzeyi zaman damgasi hizalamasi (zorlandirilmis hizalama), pyannote.audio ile konusmaci diarizasyonu ve hizlandirma icin toplu cikarim. Diarizasyon gerektiginde en iyi secim.

Insanely-Fast-Whisper — Guclu GPU'larda maksimum hiz icin Hugging Face Transformers uzerinden toplu cikarim kullanir. RTX 4090'da sesi gercek zamanin 100 katindan daha hizli transkribe edebilir.

Whisper Tabanli Hazir Hizmetler

Herkes kurulum ve yapilandirmayla ugrasmak istemez. Hazir cozumler mevcuttur:

Диктовка (Диктовка.rf) — Whisper uzerine kurulmus ses transkripsiyon web hizmeti. Bir dosya yukleyin, bir baglanti yapistirin veya sesinizi kaydedin — konusmaci diarizasyonu ve yapay zeka ozeti ile metin alin. Kurulum gerekmez: her sey tarayicida calisir, isleme guclu GPU sunucularinda gerceklesir.

Masaustu uygulamalari: Vibe (ucretsiz, cok platformlu), Buzz (acik kaynak GUI), MacWhisper (yerel macOS), Whisper Notes (iOS + Mac). Daha fazla masaustu ve mobil transkripsiyon uygulamasi icin transkripsiyon uygulamalari rehberimize bakin.

Whisper Neler Yapabilir, Neler Yapamaz

Guclu Yanlari

99 dilde transkripsiyon. Whisper, duzinelerce dilde gercekten iyi calisan sayili modellerden biridir. Turkce, Ingilizce, Almanca, Fransizca ve diger buyuk diller icin dogruluk ticari cozumlerle kiyaslanabilir.

Ingilizce'ye ceviri. Whisper konusmayi yalnizca transkribe etmekle kalmaz, ayni zamanda aninda Ingilizce'ye cevirebilir. Bu, dogrudan modele yerlestirilmis benzersiz bir yetenektir.

Dil algilama. Model, sesin ilk 30 saniyesinde konusma dilini otomatik olarak belirler. Ana diller icin algilama dogrulugu %95'i asar.

Zaman damgasi olusturma. Whisper, her segment icin zaman damgalariyla metin dondurur (genellikle 5-30 saniye). WhisperX ile kelime duzeyi zaman damgalari elde edilebilir.

Gurultuye dayaniklilik. Internetten gercek dunya verileri uzerinde egitilmis olmasi sayesinde Whisper, gurultulu sesi makul olcude iyi isler — arka plan muzigi, sokak gurultusu, ortalama mikrofonlar.

Sinirliliklari

Konusmaci diarizasyonu yok. Whisper konusmacilari ayirt etmez — her cumleyi kimin soyledigini soylemez. Bunun icin pyannote.audio gibi ayri bir modul gereklidir. Диктовка gibi hizmetlerin Whisper'in uzerine diarizasyon eklemesinin nedeni tam olarak budur — boylece kimin ne soyledigini gorebilirsiniz.

Gercek zamanli akis yok. Whisper onceden kaydedilmis ses ile calisir. Kutusundan ciktigi gibi gercek zamanli konusma transkribe edemez (whisper_streaming gibi deneysel cozumler mevcut olsa da).

Halusilasyonlar. Whisper bazen seste olmayan metinler uretir — ozellikle sessizlik veya cok dusuk konusma sirasinda. Bu, kodlayici-kod cozucu modellerin bilinen bir sorunudur.

Alana ozgu terminoloji. Ek ayarlama yapilmadan Whisper tibbi, hukuki, teknik ve diger uzmanlik terimlerinde hatalar yapabilir. Ozel sozlukler icin yerlesik bir mekanizma yoktur.

Whisper ve Rakipler: Tam Karsilastirma

Ozellik	Whisper	Google Speech	Azure Speech	Deepgram	AssemblyAI
Acik kaynak	Evet	Hayir	Hayir	Hayir	Hayir
Diller	99	125+	100+	36	20+
Turkce	Iyi	Iyi	Iyi	Temel	Hayir
Diarizasyon	Hayir*	Evet	Evet	Evet	Evet
Gercek zamanli	Hayir*	Evet	Evet	Evet	Evet
Yerel dagitim	Evet	Hayir	Hayir	Hayir	Hayir
Ucretsiz	Evet	Hayir	Hayir	Hayir	Hayir
API fiyat/dk	$0,006	~$0,016	~$0,016	~$0,015	~$0,015

*Yerlesik degil, ancak ucuncu taraf moduller (pyannote.audio, whisper_streaming) ile kullanilabilir.

Whisper'i secin:

Tam veri gizliligi gerektiginde (yerel dagitim)
Butce sinirli veya sifir oldugunda
Nadir dillerle calismada
Lisans kisitlamasi olmadan kendi urunune entegre etmede

Ticari bir cozum secin:

Gercek zamanli tanima gerektiginde
Hazir diarizasyon kritik oneme sahip oldugunda
Dagitim ve bakim icin kaynak yok oldugunda
Garantili SLA gerektiginde

Whisper Ekosistemi

Whisper etrafinda guclu bir arac ve hizmet ekosistemi olusmustur:

Cikarim optimizasyonu:

faster-whisper: CTranslate2 arka ucu, 4x hizlanma
whisper.cpp: CPU icin C++ uygulamasi
Insanely-Fast-Whisper: GPU'da toplu cikarim

Genisletilmis yetenekler:

WhisperX: diarizasyon + kelime duzeyi zaman damgalari
pyannote.audio: konusmaci diarizasyonu
whisper_streaming: deneysel gercek zamanli tanima

GUI'ler ve uygulamalar:

Vibe, Buzz, MacWhisper — masaustu istemciler
Whishper — kendi barindirmali web platformu
Диктовка — diarizasyon ve yapay zeka ozetiyle bulut hizmeti

Whisper'in Gelecegi

Neler Beklenmeli

Whisper gelismeye devam ediyor ve cesitli trendler ortaya cikiyor:

Kalite kaybi olmadan hiz. Large-v3'ten large-v3-turbo'ya gecis yonu gosteriyor: OpenAI, onemli olcude daha dusuk hesaplama maliyetiyle ayni dogrulugu sunan modeller uzerinde calisiyor. Gelecek surumlerinin daha da hizli olmasi bekleniyor.

Ingilizce olmayan diller icin iyilestirme. Her surumde Whisper, egitim verilerinde baslangicta yeterince temsil edilmeyen diller icin daha dogru hale geliyor. Turkce zaten iyi bir seviyede, ancak ozel terminoloji ile calismada iyilestirme potansiyeli var.

LLM'lerle entegrasyon. Transkript son isleme icin Whisper + GPT/Claude kombinasyonu yeni olanaklar aciyor: otomatik hata duzeltme, anahtar konu cikarma, ozet olusturma ve kayit icerigi hakkinda sorulara cevap verme.

Ekosistem genislemesi. Whisper uzerine kurulu arac ve hizmet sayisi artmaya devam ediyor. Belirli kullanim alanlari icin uzmanlasmis cozumler ortaya cikiyor: tibbi transkripsiyon, hukuki tutanaklar, egitim alt yazilari ve podcast produksiyon.

Sonuc

OpenAI Whisper, konusma tanima alanindaki en onemli acik kaynak modellerden biridir. Kaliteli transkripsiyona erisimi demokratiklestirerek bireysel gelistiricilerden buyuk isletmelere kadar herkes icin erisilebilir hale getirmistir.

Whisper, Turkce dahil bircok dilde mukemmel sonuclar sunar. Faster-whisper gibi optimize edilmis uygulamalar ve Диктовка gibi kullanisli hizmetlerle Whisper'i kullanmak her zamankinden daha kolaydir.

Dagitim seciminiz ihtiyaclariniza baglidir: basitlik icin OpenAI API, gizlilik icin yerel kurulum veya kolaylik icin hazir bir hizmet. Her durumda Whisper, bilinmesi ve kullanilmasi gereken bir aractir.

FAQ

OpenAI Whisper ucretsiz mi?

Evet, Whisper MIT lisansi altinda acik kaynakli bir modeldir. Kod ve model agirliklari GitHub'da ucretsiz olarak mevcuttur. Yerel kurulum tamamen ucretsizdir. OpenAI bulut API'si dakika basina $0,006 ucretlidir.

Hangi Whisper modelini secmeliyim?

Maksimum dogruluk icin large-v3'u secin (Turkce icin WER %3-5, 10+ GB VRAM'li GPU gerektirir). Uretim kullanimi icin large-v3-turbo minimum dogruluk kaybiyla 8 kat daha hizlidir. Mutevazi donanim uzerinde denemeler icin small veya medium iyi calisir.

Whisper konusma tanima konusunda ne kadar dogru?

Temiz ses kayitlarinda large-v3 modeli Turkce icin %3-5 WER gosterir — en iyi ticari cozumlerle ayni seviyede. Gurultulu veya cok konusmacili seste WER %10-20'ye yukeselebilir.

Whisper cevrimdisi kullanilabilir mi?

Evet, Whisper yerel olarak kurulabilir ve tamamen cevrimdisi kullanilabilir. Python 3.8+, FFmpeg ve CUDA destekli NVIDIA GPU gerekir. CPU'da transkripsiyon calisir ancak GPU'ya gore 10-30 kat daha yavas olur.

Whisper icin hangi ekran karti gerekli?

Small model icin 2 GB VRAM'li NVIDIA GTX 1060 yeterlidir. Large-v3 icin 10+ GB VRAM'li bir kart gerekir — RTX 3080 veya daha iyisi. Large-v3-turbo modeli 6 GB VRAM ile calisir. Faster-whisper ve whisper.cpp gibi optimize edilmis uygulamalar bu gereksinimleri azaltabilir.

Диктовка'i deneyin

←Tüm makaleler