Bütün məqalələr

OpenAI Whisper: Modeller, Deqiqlik, Imkanlar ve Istifade Yollari

·20 dəq oxuma

OpenAI Whisper transkripsiya senayesini deyisdiren aciq menbe nitq taninma modelidir. Bu beledcide Whisper-in butun versiyalarini arasdiririg, model olculerini muqayise edirik, muxteilf dillerde deqiqliyi qiymetlendiririk, API-den yerli qurasdirilmaya qeder yerlesdirme seceneklerini arasdiririq ve Whisper-in heqiqeten guclu ve komaye ehtiyac duydugu yerleri gosteririk.


Whisper Nedir

Whisper, OpenAI terefinden hazirlanmis ve 2022-ci ilin sentyabrinda aciq menbe olaraq buraxilmis avtomatik nitq taninma (ASR) modelidir. Bu adi bir STT sistemi deyildi — Whisper nitq transkripsiyasi ucun heqiqeten deqiq ve tamamiley pulsuz olan ilk model oldu.

Whisper haqqinda esas faktlar:

Whisper-den evvel keyfiyyetli nitq taninma yalniz odesnisli bulud API-leri (Google Cloud Speech, Amazon Transcribe, Azure Speech) vasitesile elde edile bilerdi. DeepSpeech ve Vosk kimi aciq menbe alternativler deqiqlik baximindan geride qalirdi. Whisper oyunun qaydalarini deyisdirdi: indi her hansii bir teertuebatci kommersiya seviyyesinde nitq taninma elde ede bilerdi — pulsuz ve oz avadanliqinda islede bilerdi.

Whisper Neye Inqilabi Oldu

Whisper-in ugurununun acari teelim meelumatlarinin hecmi ve rengarenglidiyidir. 680.000 saat audio bunlari ehatee edirdi:

Bu "zeyif neazret" yanasma modelee ideal laboratoriya yazilmalari deyil, reaal dunnyaa nitqinden oyrenmeye imkaan verdi. Neticede, Whisper sesli audioida, aksentlerle ve idealdan uzaq seraitde bele sabit deqiqlik gosterir.


Whisper Versiya Tarixi

Whisper v1 (Sentyabr 2022)

Ilk ictimai buraxilis bes model olcusu daxil edirdi: tiny, base, small, medium ve large. Basdangilicdan large model kommersiya xidmetleri ile muqayise edile bilen deqiqlik gosterdi. Model derhal 99 dili destekledi, lakin ferdi diller ucun keyfiyyet ehemiyyetli deyisirdi.

Whisper v2 (Dekabr 2022)

Cemi uc ay sonra OpenAI yenilenenmis large-v2 modelini buraxdi. Esas tekmilledirmeler:

Whisper v3 (Noyabr 2023)

Large-v3 buraxilisi ehemiyyetli bir irelileme oldu:

Whisper v3 Turbo (Oktyabr 2024)

En son model — large-v3-turbo — sureet ve deqiqlik arasinda tarazliq yaradir:


Whisper Model Olculeri: Tiny-den Large-v3-e Qeder

Whisper alti esas model teklif edir ve onlar arasinda secim hemise deqiqlik, sureet ve avadanliq teleblerini tarazlamasini neezerde tutur.

Model Muqayise Cedveli

ModelParametrlerVRAMNisbi SureetWER (EN)WER (AZ)
tiny39M~1 GBCox sureetli~8%~20%
base74M~1 GBSureetli~6%~16%
small244M~2 GBOrta~4,5%~11%
medium769M~5 GBYavas~3,5%~8%
large-v31550M~10 GBCox yavas~2,5%~6%
large-v3-turbo809M~6 GBSureetli~3%~7%

WER (Soz Xeta Nisbeeti) — sehv taninmis sozlerin faiizi. Asagi olan daha yaxsidir.

Hansi Modeli Secmeli


Azerbaycan Dili Ucun Whisper Deqiqliyi

Azerbaycan dili, Whisper-in maqbul neticeler gosterdiyi dillerden biridir. Tedris meelumatlaarinda mueyyeen miqdar Azerbaycanca mezmun movcud olsa da, boyuk dillerden (Ingilisce, Rusca) daha azdir.

Heqiqi Performans Gostericileri

Temiz audioida yaxsi yazilma keyfiyyeti ile (podkastlar, musahibeler):

Cetiin audioida (ses-kuey, bir nece danisan, aksent):


Whisper-i Nece Istifade Etmek

OpenAI Whisper API

Whisper-i istifade etmenin en sadee yolu OpenAI bulud API vasitesiledir.

Ustunlukler:

Catisliqlar:

Heqiqi xercer: 1 saat audio = $0,36, 10 saat = $3,60.

Yerli Qurasdirilma

Meelumaat gizliliyine ustunluk verenler ve ya boyuk hecmli audio emaal edenler ucun.

Minimum telebller:

Original Whisper pip vasitesile qurasdiirilir. Audio emali ucun FFmpeg de lazimdir.

Vacib: CPU-da large-v3 modeli ile transkripsiya GPU-ya nisbeten 10-30 defe daha uzun ceke biler. Ciddi is ucun GPU demek olar ki mecburidir.

Optimallasdiirilmis Tedbiqler

Original OpenAI Whisper en semereli tedbiq deyil. Icma ehemiyyetli deereccede daha sureetli bir nece alternativ yaratmisdir:

faster-whisper — CTranslate2 uzerinde qurulmus, eyni keyfiyyeetde originaldan 4 defe sureetli. Daha az yaddas istifadesi, int8 kvantizasiya desteyi. Istehsal yerlesddirmeleri ucun en populyar secim.

whisper.cpp — CPU ucun optimallasdiirilmis saf C/C++ tedbiq. Mac (Metal vasitesile Apple Silicon), Windows, Linux, Android ve Raspberry Pi-de isleyir.

WhisperX — Elave imkanlara malik Whisper genislenmeesi: soz seviyyesinde zaman damgasi duzlendirmesi, pyannote.audio vasitesile danisan diarizasiyasi ve sureet ucun toplu ciaxaaris.

Insanely-Fast-Whisper — Guclu GPU-larda maksimal sureet ucun Hugging Face Transformers vasitesile toplu ciaxaris istifade edir.

Whisper Esasli Hazir Xidmetler

Herkes qurasdirilma ve konfiqurasiya ile mesgul olmaq isttemir. Hazir helller movcuddur:

Diktovka (diktovka.rf) — Whisper uzerinde qurulmus audio transkripsiya veb xidmeti. Sade bir fayl yukleyin, link yapisdirin ve ya sesinizi yaziyn — danisan diarizasiyasi ve AI xulasesi ile metn alin. Qurasdirilma lazim deyil: her sey brauzerde isleyir, emaal guclu GPU serverlerinde bas verir.

Desktop tedbiqler: Vibe (pulsuz, coxplatformali), Buzz (aciq menbe GUI), MacWhisper (macOS ucun), Whisper Notes (iOS + Mac). Daha cox desktop ve mobil transkripsiya tedbiqlleri ucun transkripsiya tedbiqlleri beledcimize baxin.


Whisper Ne Ede Biler, Ne Ede Bilmez

Guclu Tereefleri

99 dilde transkripsiya. Whisper onlarla dilde heqiqeten yaxsi isleyen az saydaa modellerden biridir. Azerbaycan, Turkce, Ingilisce ve diger boyuk diller ucun deqiqlik kommersiya hellerile muqayise edile biler, lakin diarizasiya, adaptiv modeller ve axin taninma kimi daxili xususiyyetler yoxdur. Modellerin ve xidmetlerin etrafli muqayisesi ucun transkripsiya bazari beledcimize baxin.

Ingilisceye tercume. Whisper nitqi yalniz transkripsiya etmir, hemcinin onu derhal Ingilisceye tercume ede bilir.

Dil askareetmesi. Model audionun ilk 30 saniyesinde nitq dilini avtomatik mueeyyenlesdirir.

Zaman damgasi yaratma. Whisper her seqment ucun zaman damgalari ile metn qaytarir.

Ses-kuye davam getirmek. Internet-den real dunya meelumatlarinda oyreedildiyine gore Whisper sesli audio ile maqbul isleyir.

Mehdudiyyetler

Danisan diarizasiyasi yoxdur. Whisper danisanlari ayird etmir. Bunun ucun pyannote.audio kimi ayrica modul lazimdir. Mehz bu sebebden Diktovka kimi xidmetler Whisper uzerine diarizasiya elave edir — kimin ne dediyini gormeniz ucun.

Real vaxt axin yoxdur. Whisper evvelceden yazilmis audio ile isleyir.

Halluusinasiyalar. Bezeen Whisper audioida olmayan metn yaradir — xususile seskitlikde ve ya cox sakit nitqde.

Saheeye aid terminologiya. Elave tenzimleeme olmadan Whisper tibbi, huquqi, texniki terminlerde sehv ede biler.


Whisper ve Reqibler: Tam Muqayise

XususiyyetWhisperGoogle SpeechAzure SpeechDeepgramAssemblyAI
Aciq menbeBeliXeyrXeyrXeyrXeyr
Diller99125+100+3620+
AzerbaycancaYaxsiOrtaOrtaYoxdurYoxdur
DiarizasiyaXeyr*BeliBeliBeliBeli
Real vaxtXeyr*BeliBeliBeliBeli
Yerli yerlesdirmeBeliXeyrXeyrXeyrXeyr
PulsuzBeliXeyrXeyrXeyrXeyr
API qiymet/deq$0,006~$0,016~$0,016~$0,015~$0,015

*Daxili deyil, amma ucuncu teref modullar (pyannote.audio, whisper_streaming) vasitesile movcuddur.

Whisper-i secin:

Kommersiya helli secin:


Whisper Ekosistemi

Whisper etrafinda guclu aleetler ve xidmetler ekosistemi formalasmisdir:

Inference optimallasdirma:

Genislenmis imkanlar:

GUI-ler ve tedbiqler:


Whisper-in Geleceeyi

Whisper inkisaf etmeeye davam edir ve bir nece trend yaranir:

Keyfiyyet itkisi olmadan sureet. Large-v3-den large-v3-turbo-ya kecid istiqameti gosterir: OpenAI ehemiyyetli derecede daha asaagi hesablama xerci ile eyni deqiqliyi teemin eden modeller uzerinde isleyir.

Ingilisce olmayan diller ucun yaxsilasdirilma. Her versiya ile Whisper tedris meelumatlarinda ilk baslangicda az temsiil olunan diller ucun daha deqiq olur. Azerbaycan dili inkisaf meqsedindedir, amma xususi terminologiya ile islede tekmillesdirilme potensiali var.

LLM-lerle inteqrasiya. Transkript post-emali ucun Whisper + GPT/Claude kombinasiyasi yeni imkanlar acir.


Neticee

OpenAI Whisper nitq taninma saheesinde en ehemiyyetli aciq menbe modellerinden biridir. Keyfiyyetli transkripsiyaya catimliligi demokratiklasdirib onu herkes ucun — ferdi teertuebatcilardan boyuk muessieselere qeder — movcud etmisdir.

Faster-whisper kimi optimallasdiirilmis tetbiqler ve Diktovka kimi rahat xidmetler ile Whisper-i istifade etmek her zamankiindan daha asandir.

Yerlesdirme seciminiz ehtiyaclariniza baglidir: sadelik ucun OpenAI API, gizlilik ucun yerli qurasdirilma ve ya rahatlig ucun hazir xidmet.

FAQ

OpenAI Whisper pulsuzdur?

Beli, Whisper MIT lisenziyasi altinda aciq menbe modeldir. Kod ve model cekileri GitHub-da pulsuz movcuddur. Yerli qurasdirilma tamam ile pulsluzdur. OpenAI bulud API-si audio deqiqesine $0,006 basa gelir.

Hansi Whisper modelini secmeliyem?

Maksimum deqiqlik ucun large-v3 secin (Azerbaycan turkcesi ucun WER 4–6%, 10+ QB VRAM-li GPU lazimdir). Istehsal istifadesi ucun large-v3-turbo minimum deqiqlik itkisi ile 8 defe daha suretlidir. Mutevazi avadanliqda sinaqlar ucun small ve ya medium yaxsi isleyir.

Whisper Azerbaycan turkcesini ne dereced deqiq tanimr?

Temiz audioda large-v3 modeli Azerbaycan turkcesi ucun WER 4–6% gosterir. Sesli ve ya coxlu danisicili cetiin audioda WER 10–20%-e qeder yuksele biler.

Whisper-i oflayn istifade etmek olar?

Beli, Whisper yerli olaraq qurasdirillb tamam ile oflayn istifade oluna biler. Bunun ucun Python 3.8+, FFmpeg ve CUDA destekli NVIDIA video karti lazimdir. CPU-da transkripsiya isleyir, amma GPU-dan 10–30 defe yavasdifr.

Whisper ucun hansi video kart lazimdir?

Small modeli ucun 2 QB VRAM-li NVIDIA GTX 1060 kifayetdir. Large-v3 ucun 10+ QB VRAM-li kart lazimdir — RTX 3080 ve ya daha yaxsisi. Large-v3-turbo modeli 6 QB VRAM ile isleyir. Optimallasdirrlmis tetbiqler (faster-whisper, whisper.cpp) telebileri azalda biler.