Taklaxbr
qwen3.5-4b-turkish-sft
Run this model inference on single tenant GPU with unmatched speed and reliability at scale.
Get help setting up a custom Dedicated Endpoints.
Talk with our engineer to get a quote for reserved GPU instances with discounts.
README
License: apache-2.0Model Detayları
| Özellik | Değer |
|---|---|
| Temel (Base) Model | Qwen/Qwen3.5-4B |
| Dil | Türkçe (tr), İngilizce (en) |
| Mimari | Qwen3_5ForConditionalGeneration |
| Hassasiyet (Precision) | bfloat16 |
| Bağlam Uzunluğu (Context Length) | 262,144 token |
| Gizli Boyut (Hidden Size) | 2560 |
| Katmanlar (Layers) | 32 (hibrit: linear + full attention) |
| Parametre Sayısı | 4.5B |
| Lisans | Apache 2.0 |
Eğitim Detayları
| Özellik | Değer |
|---|---|
| Yöntem | Unsloth üzerinden LoRA (bf16) |
| Veri Seti | helpsteer3-tr (edit alt kümesi) |
| Eğitim Örnekleri | 13,740 |
| Epoch | 2 |
| Öğrenme Oranı (Learning Rate) | 2e-4 (cosine scheduler, 3% warmup) |
| Batch Boyutu | 8 (gradient accumulation: 2, effective: 16) |
| Maks. Dizi Uzunluğu (Max Seq) | 2048 |
| Optimizasyon (Optimizer) | AdamW 8-bit |
| LoRA Rank / Alpha | 16 / 16 |
| LoRA Hedef Modülleri | q_proj, k_proj, v_proj, o_proj, gate_proj, up_proj, down_proj |
| Eğitilebilir Parametreler | 21.2M / 4.5B (0.47%) |
| Final Loss | 1.0971 |
| GPU | A100 |
| Eğitim Süresi | ~7.8 saat |
Kullanım
Not: Bu model Qwen3.5 tabanlıdır. Akıl yürütme (Thinking) modu varsayılan olarak açıktır. Doğrudan standart bir yanıt almak için
enable_thinking=Falseparametresini kullanın.
python
from transformers import Qwen3_5ForConditionalGeneration, AutoProcessormodel_id = "yusufbaykaloglu/qwen3.5-4b-turkish-sft"model = Qwen3_5ForConditionalGeneration.from_pretrained(model_id,torch_dtype="auto",device_map="auto",)processor = AutoProcessor.from_pretrained(model_id)messages = [{"role": "user", "content": [{"type": "text", "text": "Python'da bir listeyi nasıl sıralarım?"}]}]text = processor.apply_chat_template(messages, tokenize=False, add_generation_prompt=True, enable_thinking=False)inputs = processor(text=[text], return_tensors="pt").to(model.device)outputs = model.generate(**inputs, max_new_tokens=1024, temperature=0.6, top_p=0.95, top_k=20)response = processor.batch_decode(outputs[:, inputs.input_ids.shape[-1]:], skip_special_tokens=True)[0]print(response)
GGUF Versiyonları
Düşük donanımlar için kuantize edilmiş versiyonlara buradan ulaşabilirsiniz: yusufbaykaloglu/qwen3.5-4b-turkish-sft-gguf
| Sürüm | Boyut |
|---|---|
| Q4_K_M | 2.7 GB |
| Q8_0 | 4.5 GB |
| BF16-mmproj | 676 MB |
Atıf (Citation)
bibtex
@misc{yusufbaykaloglu2026qwen3.5turkish,title={Qwen3.5-4B Turkish SFT},author={Yusuf Baykaloglu},year={2026},url={https://huggingface.co/yusufbaykaloglu/qwen3.5-4b-turkish-sft}}
Bu dosya veripazari.com.tr topluluğu tarafından Hugging Face altyapısında barındırılmaktadır. Orijinal emeğe saygı kuralımız gereği lisans ve model isimleri korunmuştur.
Model provider
Taklaxbr
Model tree
Base
Qwen/Qwen3.5-4B
Fine-tuned
this model
Modalities
Input
Video, Text, Image
Output
Text
Pricing
Dedicated Endpoints
View detailsSupported Functionality
Model APIs
Dedicated Endpoints
Container
More information