OpenAI Whisper: Modeller, Deqiqlik, Imkanlar ve Istifade Yollari
OpenAI Whisper transkripsiya senayesini deyisdiren aciq menbe nitq taninma modelidir. Bu beledcide Whisper-in butun versiyalarini arasdiririg, model olculerini muqayise edirik, muxteilf dillerde deqiqliyi qiymetlendiririk, API-den yerli qurasdirilmaya qeder yerlesdirme seceneklerini arasdiririq ve Whisper-in heqiqeten guclu ve komaye ehtiyac duydugu yerleri gosteririk.
Whisper Nedir
Whisper, OpenAI terefinden hazirlanmis ve 2022-ci ilin sentyabrinda aciq menbe olaraq buraxilmis avtomatik nitq taninma (ASR) modelidir. Bu adi bir STT sistemi deyildi — Whisper nitq transkripsiyasi ucun heqiqeten deqiq ve tamamiley pulsuz olan ilk model oldu.
Whisper haqqinda esas faktlar:
- Aciq menbe: kod ve model cekileri MIT lisenziyasi ile GitHub-da movcuddur
- Internetden 680.000 saat audio ile oyredilmisdir — texminen 77 il fasilesiz ses
- Coxdilli: Azerbaycan, Turkce, Ingilisce, Rusca daxil 99 dili destekleyir
- Cox tapsirig: transkripsiya, Ingilisceye tercume, dil asdkaretmesi ve zaman damgasi yaratma — hamisi bir modelde
- Encoder-decoder arxitekturasi: Transformer esasli, 30 saniyelik mel-spektroqram seqmentlerini emaal edir
Whisper-den evvel keyfiyyetli nitq taninma yalniz odesnisli bulud API-leri (Google Cloud Speech, Amazon Transcribe, Azure Speech) vasitesile elde edile bilerdi. DeepSpeech ve Vosk kimi aciq menbe alternativler deqiqlik baximindan geride qalirdi. Whisper oyunun qaydalarini deyisdirdi: indi her hansii bir teertuebatci kommersiya seviyyesinde nitq taninma elde ede bilerdi — pulsuz ve oz avadanliqinda islede bilerdi.
Whisper Neye Inqilabi Oldu
Whisper-in ugurununun acari teelim meelumatlarinin hecmi ve rengarenglidiyidir. 680.000 saat audio bunlari ehatee edirdi:
- Onlarla dilde podkastlar ve videolar
- Muxteilf yazilma keyfiyyetli audio
- Aksentler, dialektler ve arxa plan seesleri ile nitq
- Muxteilf platformalardan audio-metn cutleri
Bu "zeyif neazret" yanasma modelee ideal laboratoriya yazilmalari deyil, reaal dunnyaa nitqinden oyrenmeye imkaan verdi. Neticede, Whisper sesli audioida, aksentlerle ve idealdan uzaq seraitde bele sabit deqiqlik gosterir.
Whisper Versiya Tarixi
Whisper v1 (Sentyabr 2022)
Ilk ictimai buraxilis bes model olcusu daxil edirdi: tiny, base, small, medium ve large. Basdangilicdan large model kommersiya xidmetleri ile muqayise edile bilen deqiqlik gosterdi. Model derhal 99 dili destekledi, lakin ferdi diller ucun keyfiyyet ehemiyyetli deyisirdi.
Whisper v2 (Dekabr 2022)
Cemi uc ay sonra OpenAI yenilenenmis large-v2 modelini buraxdi. Esas tekmilledirmeler:
- Bir cox dilde azaldilmis Soz Xeta Nisbeeti (WER)
- Uzun audio yazilmalarinin daha yaxsi emali
- Aksentler ve dialektlerle daha sabit performans
- Daha az "halluusinasiyalar"
Whisper v3 (Noyabr 2023)
Large-v3 buraxilisi ehemiyyetli bir irelileme oldu:
- 80 evezine 128 mel-spektroqram kanali
- Tekmillesdiirilmis filtrelem ile daha boyuk meelumaat destlerinde tedris
- Ingilisce olmayan diller ucun neezere carpan deqiqlik tekmilledirmeleri
Whisper v3 Turbo (Oktyabr 2024)
En son model — large-v3-turbo — sureet ve deqiqlik arasinda tarazliq yaradir:
- Large-v3-den 8 defe sureetli, minimal deqiqlik itgisi ile
- 1,55 milyard evezine 809 milyon parametr
- Dekoder 32 qatdan 4-e endirilmisdir
- Suretin vacib oldugu istehsal sistemleri ucun ideal
- WER large-v3-den yalniz 1-2% yuxaridir
Whisper Model Olculeri: Tiny-den Large-v3-e Qeder
Whisper alti esas model teklif edir ve onlar arasinda secim hemise deqiqlik, sureet ve avadanliq teleblerini tarazlamasini neezerde tutur.
Model Muqayise Cedveli
| Model | Parametrler | VRAM | Nisbi Sureet | WER (EN) | WER (AZ) |
|---|---|---|---|---|---|
| tiny | 39M | ~1 GB | Cox sureetli | ~8% | ~20% |
| base | 74M | ~1 GB | Sureetli | ~6% | ~16% |
| small | 244M | ~2 GB | Orta | ~4,5% | ~11% |
| medium | 769M | ~5 GB | Yavas | ~3,5% | ~8% |
| large-v3 | 1550M | ~10 GB | Cox yavas | ~2,5% | ~6% |
| large-v3-turbo | 809M | ~6 GB | Sureetli | ~3% | ~7% |
WER (Soz Xeta Nisbeeti) — sehv taninmis sozlerin faiizi. Asagi olan daha yaxsidir.
Hansi Modeli Secmeli
- tiny / base: tecrubeler, prototipler ucun ve ya mehdud avadanliqda maksimal sureet lazim olanda.
- small: bir cox tapsiriq ucun optimal tarazliq.
- medium: yuxari deqiqlik lazimdir, amma guclu GPU yoxdur olanda.
- large-v3: butun diller ucun maksimal deqiqlik. Ciddi GPU teleb edir (NVIDIA, 10+ GB VRAM).
- large-v3-turbo: istehsal ucun en yaxsi secim — large-v3-e yaxin deqiqlik, ehemiyyetli derecede yuxari sureetlee.
Azerbaycan Dili Ucun Whisper Deqiqliyi
Azerbaycan dili, Whisper-in maqbul neticeler gosterdiyi dillerden biridir. Tedris meelumatlaarinda mueyyeen miqdar Azerbaycanca mezmun movcud olsa da, boyuk dillerden (Ingilisce, Rusca) daha azdir.
Heqiqi Performans Gostericileri
Temiz audioida yaxsi yazilma keyfiyyeti ile (podkastlar, musahibeler):
- large-v3: WER 5-8%
- large-v3-turbo: WER 6-9%
- medium: WER 7-11%
- small: WER 11-16%
Cetiin audioida (ses-kuey, bir nece danisan, aksent):
- WER large-v3 ucun bele 15-28%-e qeder yuxari gale biler
- Xususile xas adlar, qisaltmalar ve ixtisas terminologiyasi tesir goerur
Whisper-i Nece Istifade Etmek
OpenAI Whisper API
Whisper-i istifade etmenin en sadee yolu OpenAI bulud API vasitesiledir.
Ustunlukler:
- Avadanliq ve ya qurasdirilma lazim deyil
- Hemise en son model
- Sade REST API
Catisliqlar:
- Deyeer: audio dequiqesine $0,006
- Meelumatlar OpenAI serverlerine gonderilir
- Fayl olcusu mehdudiyyeti: 25 MB
- Internet baglantisi ve xidmet movcudluguna bagli
Heqiqi xercer: 1 saat audio = $0,36, 10 saat = $3,60.
Yerli Qurasdirilma
Meelumaat gizliliyine ustunluk verenler ve ya boyuk hecmli audio emaal edenler ucun.
Minimum telebller:
- Python 3.8+
- CPU ucun: her hansii muasir prosessor (amma yavas)
- GPU ucun: CUDA desteekli NVIDIA (small ucun GTX 1060+, large-v3 ucun RTX 3080+)
Original Whisper pip vasitesile qurasdiirilir. Audio emali ucun FFmpeg de lazimdir.
Vacib: CPU-da large-v3 modeli ile transkripsiya GPU-ya nisbeten 10-30 defe daha uzun ceke biler. Ciddi is ucun GPU demek olar ki mecburidir.
Optimallasdiirilmis Tedbiqler
Original OpenAI Whisper en semereli tedbiq deyil. Icma ehemiyyetli deereccede daha sureetli bir nece alternativ yaratmisdir:
faster-whisper — CTranslate2 uzerinde qurulmus, eyni keyfiyyeetde originaldan 4 defe sureetli. Daha az yaddas istifadesi, int8 kvantizasiya desteyi. Istehsal yerlesddirmeleri ucun en populyar secim.
whisper.cpp — CPU ucun optimallasdiirilmis saf C/C++ tedbiq. Mac (Metal vasitesile Apple Silicon), Windows, Linux, Android ve Raspberry Pi-de isleyir.
WhisperX — Elave imkanlara malik Whisper genislenmeesi: soz seviyyesinde zaman damgasi duzlendirmesi, pyannote.audio vasitesile danisan diarizasiyasi ve sureet ucun toplu ciaxaaris.
Insanely-Fast-Whisper — Guclu GPU-larda maksimal sureet ucun Hugging Face Transformers vasitesile toplu ciaxaris istifade edir.
Whisper Esasli Hazir Xidmetler
Herkes qurasdirilma ve konfiqurasiya ile mesgul olmaq isttemir. Hazir helller movcuddur:
Diktovka (diktovka.rf) — Whisper uzerinde qurulmus audio transkripsiya veb xidmeti. Sade bir fayl yukleyin, link yapisdirin ve ya sesinizi yaziyn — danisan diarizasiyasi ve AI xulasesi ile metn alin. Qurasdirilma lazim deyil: her sey brauzerde isleyir, emaal guclu GPU serverlerinde bas verir.
Desktop tedbiqler: Vibe (pulsuz, coxplatformali), Buzz (aciq menbe GUI), MacWhisper (macOS ucun), Whisper Notes (iOS + Mac). Daha cox desktop ve mobil transkripsiya tedbiqlleri ucun transkripsiya tedbiqlleri beledcimize baxin.
Whisper Ne Ede Biler, Ne Ede Bilmez
Guclu Tereefleri
99 dilde transkripsiya. Whisper onlarla dilde heqiqeten yaxsi isleyen az saydaa modellerden biridir. Azerbaycan, Turkce, Ingilisce ve diger boyuk diller ucun deqiqlik kommersiya hellerile muqayise edile biler, lakin diarizasiya, adaptiv modeller ve axin taninma kimi daxili xususiyyetler yoxdur. Modellerin ve xidmetlerin etrafli muqayisesi ucun transkripsiya bazari beledcimize baxin.
Ingilisceye tercume. Whisper nitqi yalniz transkripsiya etmir, hemcinin onu derhal Ingilisceye tercume ede bilir.
Dil askareetmesi. Model audionun ilk 30 saniyesinde nitq dilini avtomatik mueeyyenlesdirir.
Zaman damgasi yaratma. Whisper her seqment ucun zaman damgalari ile metn qaytarir.
Ses-kuye davam getirmek. Internet-den real dunya meelumatlarinda oyreedildiyine gore Whisper sesli audio ile maqbul isleyir.
Mehdudiyyetler
Danisan diarizasiyasi yoxdur. Whisper danisanlari ayird etmir. Bunun ucun pyannote.audio kimi ayrica modul lazimdir. Mehz bu sebebden Diktovka kimi xidmetler Whisper uzerine diarizasiya elave edir — kimin ne dediyini gormeniz ucun.
Real vaxt axin yoxdur. Whisper evvelceden yazilmis audio ile isleyir.
Halluusinasiyalar. Bezeen Whisper audioida olmayan metn yaradir — xususile seskitlikde ve ya cox sakit nitqde.
Saheeye aid terminologiya. Elave tenzimleeme olmadan Whisper tibbi, huquqi, texniki terminlerde sehv ede biler.
Whisper ve Reqibler: Tam Muqayise
| Xususiyyet | Whisper | Google Speech | Azure Speech | Deepgram | AssemblyAI |
|---|---|---|---|---|---|
| Aciq menbe | Beli | Xeyr | Xeyr | Xeyr | Xeyr |
| Diller | 99 | 125+ | 100+ | 36 | 20+ |
| Azerbaycanca | Yaxsi | Orta | Orta | Yoxdur | Yoxdur |
| Diarizasiya | Xeyr* | Beli | Beli | Beli | Beli |
| Real vaxt | Xeyr* | Beli | Beli | Beli | Beli |
| Yerli yerlesdirme | Beli | Xeyr | Xeyr | Xeyr | Xeyr |
| Pulsuz | Beli | Xeyr | Xeyr | Xeyr | Xeyr |
| API qiymet/deq | $0,006 | ~$0,016 | ~$0,016 | ~$0,015 | ~$0,015 |
*Daxili deyil, amma ucuncu teref modullar (pyannote.audio, whisper_streaming) vasitesile movcuddur.
Whisper-i secin:
- Tam meelumaat gizliliyi lazimdir olanda (yerli yerlesdirme)
- Budce mehdud ve ya sifir olanda
- Nadir dillerle islemede
- Lisenziya mehdudiyyeti olmadan oz mehsulunuza inteqrasiya etmede
Kommersiya helli secin:
- Real vaxt taninma lazimdir olanda
- Hazir diarizasiya kritik eheemiyyetli olanda
- Yerlesdirme ve texniki destek ucun resurs yoxdur olanda
- Zemanetli SLA lazimdir olanda
Whisper Ekosistemi
Whisper etrafinda guclu aleetler ve xidmetler ekosistemi formalasmisdir:
Inference optimallasdirma:
- faster-whisper: CTranslate2 backend, 4x sureetlendirme
- whisper.cpp: CPU ucun C++ tetbiq
- Insanely-Fast-Whisper: GPU-da toplu ciaxaris
Genislenmis imkanlar:
- WhisperX: diarizasiya + soz seviyyesinde zaman damgalari
- pyannote.audio: danisan diarizasiyasi
- whisper_streaming: eksperimental real vaxt taninma
GUI-ler ve tedbiqler:
- Vibe, Buzz, MacWhisper — desktop musteriler
- Whishper — self-hosted veb platform
- Diktovka — diarizasiya ve AI xulasesi ile bulud xidmeti
Whisper-in Geleceeyi
Whisper inkisaf etmeeye davam edir ve bir nece trend yaranir:
Keyfiyyet itkisi olmadan sureet. Large-v3-den large-v3-turbo-ya kecid istiqameti gosterir: OpenAI ehemiyyetli derecede daha asaagi hesablama xerci ile eyni deqiqliyi teemin eden modeller uzerinde isleyir.
Ingilisce olmayan diller ucun yaxsilasdirilma. Her versiya ile Whisper tedris meelumatlarinda ilk baslangicda az temsiil olunan diller ucun daha deqiq olur. Azerbaycan dili inkisaf meqsedindedir, amma xususi terminologiya ile islede tekmillesdirilme potensiali var.
LLM-lerle inteqrasiya. Transkript post-emali ucun Whisper + GPT/Claude kombinasiyasi yeni imkanlar acir.
Neticee
OpenAI Whisper nitq taninma saheesinde en ehemiyyetli aciq menbe modellerinden biridir. Keyfiyyetli transkripsiyaya catimliligi demokratiklasdirib onu herkes ucun — ferdi teertuebatcilardan boyuk muessieselere qeder — movcud etmisdir.
Faster-whisper kimi optimallasdiirilmis tetbiqler ve Diktovka kimi rahat xidmetler ile Whisper-i istifade etmek her zamankiindan daha asandir.
Yerlesdirme seciminiz ehtiyaclariniza baglidir: sadelik ucun OpenAI API, gizlilik ucun yerli qurasdirilma ve ya rahatlig ucun hazir xidmet.
FAQ
OpenAI Whisper pulsuzdur?
Beli, Whisper MIT lisenziyasi altinda aciq menbe modeldir. Kod ve model cekileri GitHub-da pulsuz movcuddur. Yerli qurasdirilma tamam ile pulsluzdur. OpenAI bulud API-si audio deqiqesine $0,006 basa gelir.
Hansi Whisper modelini secmeliyem?
Maksimum deqiqlik ucun large-v3 secin (Azerbaycan turkcesi ucun WER 4–6%, 10+ QB VRAM-li GPU lazimdir). Istehsal istifadesi ucun large-v3-turbo minimum deqiqlik itkisi ile 8 defe daha suretlidir. Mutevazi avadanliqda sinaqlar ucun small ve ya medium yaxsi isleyir.
Whisper Azerbaycan turkcesini ne dereced deqiq tanimr?
Temiz audioda large-v3 modeli Azerbaycan turkcesi ucun WER 4–6% gosterir. Sesli ve ya coxlu danisicili cetiin audioda WER 10–20%-e qeder yuksele biler.
Whisper-i oflayn istifade etmek olar?
Beli, Whisper yerli olaraq qurasdirillb tamam ile oflayn istifade oluna biler. Bunun ucun Python 3.8+, FFmpeg ve CUDA destekli NVIDIA video karti lazimdir. CPU-da transkripsiya isleyir, amma GPU-dan 10–30 defe yavasdifr.
Whisper ucun hansi video kart lazimdir?
Small modeli ucun 2 QB VRAM-li NVIDIA GTX 1060 kifayetdir. Large-v3 ucun 10+ QB VRAM-li kart lazimdir — RTX 3080 ve ya daha yaxsisi. Large-v3-turbo modeli 6 QB VRAM ile isleyir. Optimallasdirrlmis tetbiqler (faster-whisper, whisper.cpp) telebileri azalda biler.