turkmedstt

whisper-large-v3-turkish-medical

Deploy Dedicated

Dedicated Endpoints

Run this model inference on single tenant GPU with unmatched speed and reliability at scale.

Learn more

Container

Run this model inference with full control and performance in your environment.

Learn more

Get help setting up a custom Dedicated Endpoints.

Talk with our engineer to get a quote for reserved GPU instances with discounts.

Amaç

Türkçe klinik dikte ve tıbbi konuşma tanıma araştırmaları için geliştirilmiştir. İlaç adları ile Latin/Yunan kökenli tıbbi terimlerin tanınmasını iyileştirmeyi hedefler.

Uyarılar

Tıbbi cihaz değildir; klinik karar için kullanılmamalıdır.
Transkripsiyonlar insan denetimi olmadan hasta kaydına veya klinik iş akışına alınmamalıdır.
Medikal eğitim verisi sentetik TTS verisidir. Gerçek hasta verisi kullanılmamıştır.
Sentetik in-domain sonuçları bir üst sınırdır; gerçek konuşma sonucuyla aynı kabul edilmemelidir.
Aksan, arka plan gürültüsü, örtüşen konuşma ve belirsiz telaffuz başarımı düşürebilir.

Eğitim

Temel model: openai/whisper-large-v3
Yöntem: LoRA, hedef modüller q_proj,v_proj
LoRA: r=64, alpha=128, dropout 0.05
Öğrenme oranı: 1e-4
Eğitim: 1 epoch
Genel veri: yaklaşık 140 saat dengeli Türkçe konuşma (Common Voice, ISSAI ve OpenSLR kaynakları)
Veri hazırlama reçetesi (kaynaklar, lisanslar, temizleme kuralları, sayılar ve yeniden üretim): https://github.com/muhammedkumcu/turkmedstt/blob/main/docs/DATA_PIPELINE.md
Medikal veri: medv3 sentetik korpusu, eğitim karışımında 3 kez örnekleme

Kontrollü ablasyonda M0 temel model, M1 yalnız genel Türkçe ve M2 genel + medikal veri kullanır. M1 ile M2 arasındaki temel deneysel fark medikal eğitim verisidir.

Model ailesi

Table with columns: Kısaltma, Model, Eğitim içeriği, Deneydeki rolü
Kısaltma	Model	Eğitim içeriği	Deneydeki rolü
M0	`openai/whisper-large-v3`	Ek uyarlama yok	Temel model
M1	`turkmedstt/whisper-large-v3-turkish-general`	Genel Türkçe konuşma	Genel dil uyarlamasının etkisi
M2	Bu repo	Genel Türkçe + sentetik medikal konuşma	Medikal alan uyarlamasının ek etkisi

Bu yapı, medikal kazanımın yalnızca daha fazla eğitimden mi yoksa alan verisinden mi geldiğini daha kontrollü biçimde incelemek için kullanılmıştır.

Sonuçlar

Table with columns: Değerlendirme, Metrik, M0, M1, M2
Değerlendirme	Metrik	M0	M1	M2
Genel Türkçe, 320 gerçek klip	WER	0.1213	0.0792	0.0795
Genel Türkçe, 320 gerçek klip	CER	0.0546	0.0226	0.0228
Gerçek-ses medikal, 3 konuşmacı / 120 klip	WER	0.1060	0.1176

medv3 sentetik validation değerlendirmesi eğitim verisiyle aynı sentetik üretim alanındadır ve gerçek-ses başarımının yerine kullanılmamalıdır.

Zor tıbbi terim testinde M2, üç konuşmacının tamamında M0 ve M1'den daha yüksek recall ve daha düşük WER elde etmiştir. Gerçek-ses kayıtları yayımlanmamış; yalnız anonim ve toplu metrikler raporlanmıştır.

Metrikler nasıl okunmalı?

Table with columns: Metrik, Tanım, Yorum
Metrik	Tanım	Yorum
WER	`(değiştirme + silme + ekleme) / referans kelime sayısı`	Düşük değer daha iyidir.
CER	Aynı hata hesabının karakter düzeyinde uygulanması	Türkçedeki ek ve yazım farklılıklarını daha ayrıntılı gösterir.
Terim recall	Referansta bulunan hedef medikal terimlerden hipotezde korunanların oranı	Yüksek değer daha iyidir; `0.918`, hedef terimlerin %91,8'inin korunduğunu gösterir.

M0, M1 ve M2 aynı değerlendirme satırında karşılaştırılabilir. Buna karşılık genel Türkçe, sentetik medikal ve gerçek-ses medikal satırları farklı veri dağılımlarını temsil ettiği için birbirleriyle tek bir birleşik başarı puanı gibi yorumlanmamalıdır.

Değerlendirme kapsamı

Genel Türkçe: 320 gerçek, medikal olmayan konuşma klibi
Gerçek-ses medikal: üç gönüllü konuşmacıdan toplam 120 klip
En iyi konuşmacı: üç konuşmacı içindeki en düşük WER üreten ayrı alt grup
Sentetik validation: medv3 üretim alanından 332 klip; alan-içi üst sınır niteliğinde

Gerçek-ses değerlendirme kayıtları eğitimde kullanılmamış ve yayımlanmamıştır. Sentetik validation sonucu, aynı TTS üretim ailesine yakın olduğu için gerçek klinik performans göstergesi olarak kullanılmamalıdır.

20 model ve 1.060 genel Türkçe klibi kapsayan geniş benchmark: turkmedstt/turkish-asr-benchmark.

Önerilen kullanım alanları

Türkçe tıbbi terminoloji tanıma araştırmaları
İnsan denetimli klinik dikte prototipleri
Genel Türkçe ve medikal uyarlama arasındaki ablasyon çalışmaları
ASR hata analizi, terim koruma ölçümü ve eğitim amaçlı deneyler

Uygun olmayan kullanımlar

Tanı, tedavi veya klinik karar verme
İnsan kontrolü olmadan hasta kaydı üretme
Acil durum yönlendirmesi veya ilaç dozu belirleme
Model çıktısını kesin ve doğrulanmış tıbbi bilgi olarak sunma

Kullanım

python
import torch
from transformers import pipeline

model_id = "turkmedstt/whisper-large-v3-turkish-medical"
device = 0 if torch.cuda.is_available() else -1
dtype = torch.float16 if torch.cuda.is_available() else torch.float32

transcriber = pipeline(
    "automatic-speech-recognition",
    model=model_id,
    torch_dtype=dtype,
    device=device,
)

result = transcriber(
    "ornek.wav",
    generate_kwargs={"language": "tr", "task": "transcribe"},
)
print(result["text"])

Model birleştirilmiş tam ağırlıkları içerir; ayrıca PEFT/LoRA adaptörü yüklenmez. whisper-large-v3 boyutu nedeniyle GPU önerilir. CPU üzerinde çalışabilir ancak ilk model yükleme ve transkripsiyon süresi belirgin biçimde uzayabilir.

Repo içeriği

model.safetensors: birleştirilmiş M2 ağırlıkları
config.json, generation_config.json: model ve üretim ayarları
tokenizer, processor ve feature extractor dosyaları
training_metadata.json: temel eğitim ve yayın bilgileri

Lisans ve kaynaklar

Birleştirilmiş model Apache-2.0 altında yayımlanır. Temel whisper-large-v3 modeli MIT lisanslıdır. Eğitim veri kaynaklarının kendi lisansları ve kullanım koşulları geçerlidir; bu repo ham genel eğitim seslerini içermez.

Atıf

TurkMedSTT bitirme projesi, 2026.

Katkı verenler

Muhammed Kumcu ve Yağmur Tuncer; proje tasarımı, veri hazırlama, model eğitimi, yazılım geliştirme, değerlendirme, dokümantasyon ve yayın çalışmalarını birlikte yürütmüştür.

Teşekkür

Gerçek-ses değerlendirme kayıtlarına gönüllü katkıları için Zeynep Zehra Kumcu ve Yusuf Uysal'a teşekkür ederiz. Bu kayıtlar yayımlanmamış, yalnız anonim ve toplu sonuçlar raporlanmıştır.

Model provider

turkmedstt

Model tree

Base

openai/whisper-large-v3

Fine-tuned

this model

Modalities

Input

Audio

Output

Text

Pricing

Dedicated Endpoints

View details

Supported Functionality

Model APIs

Dedicated Endpoints

Container

More information

Model card

Explore FriendliAI today

Get started Talk to an engineer

Amaç

Türkçe klinik dikte ve tıbbi konuşma tanıma araştırmaları için geliştirilmiştir. İlaç adları ile Latin/Yunan kökenli tıbbi terimlerin tanınmasını iyileştirmeyi hedefler.

Uyarılar

Tıbbi cihaz değildir; klinik karar için kullanılmamalıdır.
Transkripsiyonlar insan denetimi olmadan hasta kaydına veya klinik iş akışına alınmamalıdır.
Medikal eğitim verisi sentetik TTS verisidir. Gerçek hasta verisi kullanılmamıştır.
Sentetik in-domain sonuçları bir üst sınırdır; gerçek konuşma sonucuyla aynı kabul edilmemelidir.
Aksan, arka plan gürültüsü, örtüşen konuşma ve belirsiz telaffuz başarımı düşürebilir.

Eğitim

Temel model: openai/whisper-large-v3
Yöntem: LoRA, hedef modüller q_proj,v_proj
LoRA: r=64, alpha=128, dropout 0.05
Öğrenme oranı: 1e-4
Eğitim: 1 epoch
Genel veri: yaklaşık 140 saat dengeli Türkçe konuşma (Common Voice, ISSAI ve OpenSLR kaynakları)
Veri hazırlama reçetesi (kaynaklar, lisanslar, temizleme kuralları, sayılar ve yeniden üretim): https://github.com/muhammedkumcu/turkmedstt/blob/main/docs/DATA_PIPELINE.md
Medikal veri: medv3 sentetik korpusu, eğitim karışımında 3 kez örnekleme

Kontrollü ablasyonda M0 temel model, M1 yalnız genel Türkçe ve M2 genel + medikal veri kullanır. M1 ile M2 arasındaki temel deneysel fark medikal eğitim verisidir.

Model ailesi

Table with columns: Kısaltma, Model, Eğitim içeriği, Deneydeki rolü
Kısaltma	Model	Eğitim içeriği	Deneydeki rolü
M0	`openai/whisper-large-v3`	Ek uyarlama yok	Temel model
M1	`turkmedstt/whisper-large-v3-turkish-general`	Genel Türkçe konuşma	Genel dil uyarlamasının etkisi
M2	Bu repo	Genel Türkçe + sentetik medikal konuşma	Medikal alan uyarlamasının ek etkisi

Bu yapı, medikal kazanımın yalnızca daha fazla eğitimden mi yoksa alan verisinden mi geldiğini daha kontrollü biçimde incelemek için kullanılmıştır.

Sonuçlar

Table with columns: Değerlendirme, Metrik, M0, M1, M2
Değerlendirme	Metrik	M0	M1	M2
Genel Türkçe, 320 gerçek klip	WER	0.1213	0.0792	0.0795
Genel Türkçe, 320 gerçek klip	CER	0.0546	0.0226	0.0228
Gerçek-ses medikal, 3 konuşmacı / 120 klip	WER	0.1060	0.1176

medv3 sentetik validation değerlendirmesi eğitim verisiyle aynı sentetik üretim alanındadır ve gerçek-ses başarımının yerine kullanılmamalıdır.

Metrikler nasıl okunmalı?

Table with columns: Metrik, Tanım, Yorum
Metrik	Tanım	Yorum
WER	`(değiştirme + silme + ekleme) / referans kelime sayısı`	Düşük değer daha iyidir.
CER	Aynı hata hesabının karakter düzeyinde uygulanması	Türkçedeki ek ve yazım farklılıklarını daha ayrıntılı gösterir.
Terim recall	Referansta bulunan hedef medikal terimlerden hipotezde korunanların oranı	Yüksek değer daha iyidir; `0.918`, hedef terimlerin %91,8'inin korunduğunu gösterir.

Değerlendirme kapsamı

Genel Türkçe: 320 gerçek, medikal olmayan konuşma klibi
Gerçek-ses medikal: üç gönüllü konuşmacıdan toplam 120 klip
En iyi konuşmacı: üç konuşmacı içindeki en düşük WER üreten ayrı alt grup
Sentetik validation: medv3 üretim alanından 332 klip; alan-içi üst sınır niteliğinde

20 model ve 1.060 genel Türkçe klibi kapsayan geniş benchmark: turkmedstt/turkish-asr-benchmark.

Önerilen kullanım alanları

Türkçe tıbbi terminoloji tanıma araştırmaları
İnsan denetimli klinik dikte prototipleri
Genel Türkçe ve medikal uyarlama arasındaki ablasyon çalışmaları
ASR hata analizi, terim koruma ölçümü ve eğitim amaçlı deneyler

Uygun olmayan kullanımlar

Tanı, tedavi veya klinik karar verme
İnsan kontrolü olmadan hasta kaydı üretme
Acil durum yönlendirmesi veya ilaç dozu belirleme
Model çıktısını kesin ve doğrulanmış tıbbi bilgi olarak sunma

Kullanım

python
import torch
from transformers import pipeline

model_id = "turkmedstt/whisper-large-v3-turkish-medical"
device = 0 if torch.cuda.is_available() else -1
dtype = torch.float16 if torch.cuda.is_available() else torch.float32

transcriber = pipeline(
    "automatic-speech-recognition",
    model=model_id,
    torch_dtype=dtype,
    device=device,
)

result = transcriber(
    "ornek.wav",
    generate_kwargs={"language": "tr", "task": "transcribe"},
)
print(result["text"])

Repo içeriği

model.safetensors: birleştirilmiş M2 ağırlıkları
config.json, generation_config.json: model ve üretim ayarları
tokenizer, processor ve feature extractor dosyaları
training_metadata.json: temel eğitim ve yayın bilgileri

Lisans ve kaynaklar

Atıf

TurkMedSTT bitirme projesi, 2026.

Katkı verenler

Muhammed Kumcu ve Yağmur Tuncer; proje tasarımı, veri hazırlama, model eğitimi, yazılım geliştirme, değerlendirme, dokümantasyon ve yayın çalışmalarını birlikte yürütmüştür.

whisper-large-v3-turkish-medical

Get help setting up a custom Dedicated Endpoints.

README

Amaç

Uyarılar

Eğitim

Model ailesi

Sonuçlar

Metrikler nasıl okunmalı?

Değerlendirme kapsamı

Önerilen kullanım alanları

Uygun olmayan kullanımlar

Kullanım

Repo içeriği

Lisans ve kaynaklar

Atıf

Katkı verenler

Teşekkür

Explore FriendliAI today

README

Amaç

Uyarılar

Eğitim

Model ailesi

Sonuçlar

Metrikler nasıl okunmalı?

Değerlendirme kapsamı

Önerilen kullanım alanları

Uygun olmayan kullanımlar

Kullanım

Repo içeriği

Lisans ve kaynaklar

Atıf

Katkı verenler

Teşekkür