Tüm makaleler

OpenAI Whisper: Modeller, Dogruluk, Yetenekler ve Kullanim Rehberi

·20 dk okuma

OpenAI Whisper, transkripsiyon endustrisini donusturen acik kaynakli konusma tanima modelidir. Bu rehberde tum Whisper surumlerini inceleyecek, model boyutlarini karsilastiracak, diller arasi dogrulugu olcecek, API'den yerel kuruluma kadar dagitim seceneklerini kesfedecek ve Whisper'in gercekten guclu oldugu ve yardima ihtiyac duydugu alanlari gosterecegiz.


Whisper Nedir

Whisper, OpenAI tarafindan gelistirilen ve Eylul 2022'de acik kaynak olarak yayinlanan bir otomatik konusma tanima (ASR) modelidir. Siradan bir STT sistemi degildir — Whisper, konusma transkripsiyonu icin gercekten dogru ve tamamen ucretsiz olan ilk model olmustur.

Whisper hakkinda temel bilgiler:

Whisper'dan once, kaliteli konusma tanima yalnizca ucretli bulut API'leri (Google Cloud Speech, Amazon Transcribe, Azure Speech) uzerinden erisilebilirdi. DeepSpeech ve Vosk gibi acik kaynak alternatifler dogruluk acisindan belirgin sekilde gerideydi. Whisper oyunun kurallarini degistirdi: artik herhangi bir gelistirici, ticari duzeyde konusma tanima elde edebilir — ucretsiz ve kendi donanminda calistirilabilir.

Whisper Neden Devrimciydi

Whisper'in basarisinin anahtari, egitim verilerinin hacmi ve cesitliligidir. 680.000 saat ses icerigi sunlari kapsiyordu:

Bu "zayif gozetim" yaklasimi, modelin ideal laboratuvar kayitlari yerine gercek dunya konusmasindan ogrenmesini sagladi. Sonuc olarak, Whisper gurultulu seste, aksanlarla ve idealden uzak kosullarda bile istikrarli dogruluk sunar.


Whisper Surum Gecmisi

Whisper v1 (Eylul 2022)

Ilk genel surum bes model boyutu iceriyordu: tiny, base, small, medium ve large. Basindan itibaren large model, ticari hizmetlerle kiyaslanabilir dogruluk gostermistir. Model hemen 99 dili destekledi, ancak bireysel diller icin kalite onemli olcude farklilk gosteriyordu.

Whisper v2 (Aralik 2022)

Sadece uc ay sonra OpenAI guncellenmis large-v2 modelini yayinladi. Temel iyilestirmeler:

Whisper v3 (Kasim 2023)

Large-v3 surumu onemli bir ileri adim oldu:

Whisper v3 Turbo (Ekim 2024)

En son model — large-v3-turbo — hiz ve dogruluk arasinda bir denge kurar:


Whisper Model Boyutlari: Tiny'den Large-v3'e

Whisper alti ana model sunar ve aralarindaki secim her zaman dogruluk, hiz ve donanim gereksinimleri arasinda bir odunlesimdir.

Model Karsilastirma Tablosu

ModelParametrelerVRAMGorecelik HizWER (EN)WER (TR)
tiny39M~1 GBCok hizli~%8~%18
base74M~1 GBHizli~%6~%14
small244M~2 GBOrta~%4,5~%9
medium769M~5 GBYavas~%3,5~%7
large-v31550M~10 GBCok yavas~%2,5~%5
large-v3-turbo809M~6 GBHizli~%3~%6

WER (Kelime Hata Orani) — yanlis tanilan kelimelerin yuzdesi. Dusuk olan daha iyidir. Degerler temiz ses icin verilmistir; gurultulu kayitlarda WER daha yuksek olacaktir.

Hangi Modeli Secmelisiniz


Turkce icin Whisper Dogrulugu

Turkce, Whisper'in iyi sonuclar verdigi dillerden biridir. Egitim verilerinde yeterli miktarda Turkce icerik bulunmasi buna katki saglamaktadir.

Gercek Performans Degerleri

Temiz seste iyi kayit kalitesiyle (podcastler, roportajlar, konferanslar):

Zorlu seslerde (gurultu, birden fazla konusmaci, aksan):

Turkce icin Rakiplerle Karsilastirma

HizmetWER (TR, temiz)DiarizasyonAcik Kaynak
Whisper large-v3%4-6Hayir*Evet
Google Cloud Speech%5-7EvetHayir
Azure Speech%5-8EvetHayir
Deepgram%8-12EvetHayir

*Yerlesik diarizasyon yok, ancak pyannote.audio gibi ucuncu taraf modullerle kullanilabilir.

Whisper, Turkce icin temel dogrulukta en iyi ticari cozumlerle kiyaslanabilir durumdadir, ancak hazir ozellikler (diarizasyon, uyarlanabilir modeller, akis tanima) acisindan geridedir. Modellerin ve hizmetlerin ayrintili karsilastirmasi icin transkripsiyon pazar rehberimize bakin.


Whisper Nasil Kullanilir

OpenAI Whisper API

Whisper'i kullanmanin en basit yolu, OpenAI'nin bulut API'sidir.

Avantajlar:

Dezavantajlar:

Pratik maliyetler: 1 saat ses = $0,36, 10 saat = $3,60. Kucuk hacimler icin GPU satin almaktan daha ekonomiktir.

Yerel Kurulum

Veri gizliligine onem verenler veya buyuk hacimli ses isleyenler icin.

Minimum gereksinimler:

Orijinal Whisper pip uzerinden kurulur. Ses isleme icin FFmpeg de gereklidir. Kurulumdan sonra hem Python kutuphanesi hem de dosya transkripsiyonu icin CLI araci kullanilabilir.

Onemli: CPU'da large-v3 modeli ile transkripsiyon, GPU'ya kiyasla 10-30 kat daha uzun surebilir. Ciddi isler icin GPU pratik olarak zorunludur.

Optimize Edilmis Uygulamalar

Orijinal OpenAI Whisper en verimli uygulama degildir. Topluluk onemli olcude daha hizli cesitli alternatifler olusturmustur:

faster-whisper — CTranslate2 uzerine kurulu, ayni kalitede orijinalden 4 kata kadar daha hizli. Daha dusuk bellek tuketimi, int8 niceleme destegi. Uretim dagitimari icin en populer secim.

whisper.cpp — CPU icin optimize edilmis saf C/C++ uygulamasi. Mac (Metal ile Apple Silicon), Windows, Linux, Android ve hatta Raspberry Pi'da calisir. GPU'suz gomulu sistemler ve cihazlar icin ideal.

WhisperX — Ek yeteneklere sahip Whisper uzantisi: kelime duzeyi zaman damgasi hizalamasi (zorlandirilmis hizalama), pyannote.audio ile konusmaci diarizasyonu ve hizlandirma icin toplu cikarim. Diarizasyon gerektiginde en iyi secim.

Insanely-Fast-Whisper — Guclu GPU'larda maksimum hiz icin Hugging Face Transformers uzerinden toplu cikarim kullanir. RTX 4090'da sesi gercek zamanin 100 katindan daha hizli transkribe edebilir.

Whisper Tabanli Hazir Hizmetler

Herkes kurulum ve yapilandirmayla ugrasmak istemez. Hazir cozumler mevcuttur:

Diktovka (diktovka.rf) — Whisper uzerine kurulmus ses transkripsiyon web hizmeti. Bir dosya yukleyin, bir baglanti yapistirin veya sesinizi kaydedin — konusmaci diarizasyonu ve yapay zeka ozeti ile metin alin. Kurulum gerekmez: her sey tarayicida calisir, isleme guclu GPU sunucularinda gerceklesir.

Masaustu uygulamalari: Vibe (ucretsiz, cok platformlu), Buzz (acik kaynak GUI), MacWhisper (yerel macOS), Whisper Notes (iOS + Mac). Daha fazla masaustu ve mobil transkripsiyon uygulamasi icin transkripsiyon uygulamalari rehberimize bakin.


Whisper Neler Yapabilir, Neler Yapamaz

Guclu Yanlari

99 dilde transkripsiyon. Whisper, duzinelerce dilde gercekten iyi calisan sayili modellerden biridir. Turkce, Ingilizce, Almanca, Fransizca ve diger buyuk diller icin dogruluk ticari cozumlerle kiyaslanabilir.

Ingilizce'ye ceviri. Whisper konusmayi yalnizca transkribe etmekle kalmaz, ayni zamanda aninda Ingilizce'ye cevirebilir. Bu, dogrudan modele yerlestirilmis benzersiz bir yetenektir.

Dil algilama. Model, sesin ilk 30 saniyesinde konusma dilini otomatik olarak belirler. Ana diller icin algilama dogrulugu %95'i asar.

Zaman damgasi olusturma. Whisper, her segment icin zaman damgalariyla metin dondurur (genellikle 5-30 saniye). WhisperX ile kelime duzeyi zaman damgalari elde edilebilir.

Gurultuye dayaniklilik. Internetten gercek dunya verileri uzerinde egitilmis olmasi sayesinde Whisper, gurultulu sesi makul olcude iyi isler — arka plan muzigi, sokak gurultusu, ortalama mikrofonlar.

Sinirliliklari

Konusmaci diarizasyonu yok. Whisper konusmacilari ayirt etmez — her cumleyi kimin soyledigini soylemez. Bunun icin pyannote.audio gibi ayri bir modul gereklidir. Diktovka gibi hizmetlerin Whisper'in uzerine diarizasyon eklemesinin nedeni tam olarak budur — boylece kimin ne soyledigini gorebilirsiniz.

Gercek zamanli akis yok. Whisper onceden kaydedilmis ses ile calisir. Kutusundan ciktigi gibi gercek zamanli konusma transkribe edemez (whisper_streaming gibi deneysel cozumler mevcut olsa da).

Halusilasyonlar. Whisper bazen seste olmayan metinler uretir — ozellikle sessizlik veya cok dusuk konusma sirasinda. Bu, kodlayici-kod cozucu modellerin bilinen bir sorunudur.

Alana ozgu terminoloji. Ek ayarlama yapilmadan Whisper tibbi, hukuki, teknik ve diger uzmanlik terimlerinde hatalar yapabilir. Ozel sozlukler icin yerlesik bir mekanizma yoktur.


Whisper ve Rakipler: Tam Karsilastirma

OzellikWhisperGoogle SpeechAzure SpeechDeepgramAssemblyAI
Acik kaynakEvetHayirHayirHayirHayir
Diller99125+100+3620+
TurkceIyiIyiIyiTemelHayir
DiarizasyonHayir*EvetEvetEvetEvet
Gercek zamanliHayir*EvetEvetEvetEvet
Yerel dagitimEvetHayirHayirHayirHayir
UcretsizEvetHayirHayirHayirHayir
API fiyat/dk$0,006~$0,016~$0,016~$0,015~$0,015

*Yerlesik degil, ancak ucuncu taraf moduller (pyannote.audio, whisper_streaming) ile kullanilabilir.

Whisper'i secin:

Ticari bir cozum secin:


Whisper Ekosistemi

Whisper etrafinda guclu bir arac ve hizmet ekosistemi olusmustur:

Cikarim optimizasyonu:

Genisletilmis yetenekler:

GUI'ler ve uygulamalar:


Whisper'in Gelecegi

Neler Beklenmeli

Whisper gelismeye devam ediyor ve cesitli trendler ortaya cikiyor:

Kalite kaybi olmadan hiz. Large-v3'ten large-v3-turbo'ya gecis yonu gosteriyor: OpenAI, onemli olcude daha dusuk hesaplama maliyetiyle ayni dogrulugu sunan modeller uzerinde calisiyor. Gelecek surumlerinin daha da hizli olmasi bekleniyor.

Ingilizce olmayan diller icin iyilestirme. Her surumde Whisper, egitim verilerinde baslangicta yeterince temsil edilmeyen diller icin daha dogru hale geliyor. Turkce zaten iyi bir seviyede, ancak ozel terminoloji ile calismada iyilestirme potansiyeli var.

LLM'lerle entegrasyon. Transkript son isleme icin Whisper + GPT/Claude kombinasyonu yeni olanaklar aciyor: otomatik hata duzeltme, anahtar konu cikarma, ozet olusturma ve kayit icerigi hakkinda sorulara cevap verme.

Ekosistem genislemesi. Whisper uzerine kurulu arac ve hizmet sayisi artmaya devam ediyor. Belirli kullanim alanlari icin uzmanlasmis cozumler ortaya cikiyor: tibbi transkripsiyon, hukuki tutanaklar, egitim alt yazilari ve podcast produksiyon.


Sonuc

OpenAI Whisper, konusma tanima alanindaki en onemli acik kaynak modellerden biridir. Kaliteli transkripsiyona erisimi demokratiklestirerek bireysel gelistiricilerden buyuk isletmelere kadar herkes icin erisilebilir hale getirmistir.

Whisper, Turkce dahil bircok dilde mukemmel sonuclar sunar. Faster-whisper gibi optimize edilmis uygulamalar ve Diktovka gibi kullanisli hizmetlerle Whisper'i kullanmak her zamankinden daha kolaydir.

Dagitim seciminiz ihtiyaclariniza baglidir: basitlik icin OpenAI API, gizlilik icin yerel kurulum veya kolaylik icin hazir bir hizmet. Her durumda Whisper, bilinmesi ve kullanilmasi gereken bir aractir.

FAQ

OpenAI Whisper ucretsiz mi?

Evet, Whisper MIT lisansi altinda acik kaynakli bir modeldir. Kod ve model agirliklari GitHub'da ucretsiz olarak mevcuttur. Yerel kurulum tamamen ucretsizdir. OpenAI bulut API'si dakika basina $0,006 ucretlidir.

Hangi Whisper modelini secmeliyim?

Maksimum dogruluk icin large-v3'u secin (Turkce icin WER %3-5, 10+ GB VRAM'li GPU gerektirir). Uretim kullanimi icin large-v3-turbo minimum dogruluk kaybiyla 8 kat daha hizlidir. Mutevazi donanim uzerinde denemeler icin small veya medium iyi calisir.

Whisper konusma tanima konusunda ne kadar dogru?

Temiz ses kayitlarinda large-v3 modeli Turkce icin %3-5 WER gosterir — en iyi ticari cozumlerle ayni seviyede. Gurultulu veya cok konusmacili seste WER %10-20'ye yukeselebilir.

Whisper cevrimdisi kullanilabilir mi?

Evet, Whisper yerel olarak kurulabilir ve tamamen cevrimdisi kullanilabilir. Python 3.8+, FFmpeg ve CUDA destekli NVIDIA GPU gerekir. CPU'da transkripsiyon calisir ancak GPU'ya gore 10-30 kat daha yavas olur.

Whisper icin hangi ekran karti gerekli?

Small model icin 2 GB VRAM'li NVIDIA GTX 1060 yeterlidir. Large-v3 icin 10+ GB VRAM'li bir kart gerekir — RTX 3080 veya daha iyisi. Large-v3-turbo modeli 6 GB VRAM ile calisir. Faster-whisper ve whisper.cpp gibi optimize edilmis uygulamalar bu gereksinimleri azaltabilir.