🎯 Tentang Nala
Nala adalah AI assistant berbasis Qwen 2.5 7B yang di-fine-tune khusus untuk membantu digital creators, freelancer, dan UMKM Indonesia. Nala bisa bikin caption IG, deskripsi produk, script TikTok, brainstorming ide, teks promosi, dan banyak lagi — semuanya dalam Bahasa Indonesia yang natural dan engaging.
Dikembangkan oleh Elips sebagai asisten AI gratis untuk ekosistem kreatif Indonesia.
✨ Keunggulan
- 🇮🇩 100% Bahasa Indonesia — natural, ga kaku, paham konteks lokal
- 🎯 3 Mode Nala — Fast ⚡, Creative 🎨, Thinking 🧠 (semua pure Nala 7B fine-tuning)
- 🆓 Gratis — dijalankan di HF Space free tier
- 📱 Mobile-friendly — antarmuka chat yang ringan
🏗️ Model Details
Table with columns: Detail, Value| Detail | Value |
|---|
| Base Model | Qwen/Qwen2.5-7B |
| Architecture | Transformer with RoPE, SwiGLU, RMSNorm, GQA |
| Parameters | 7.61B total (6.53B non-embedding) |
| Layers | 28 |
| Attention Heads | 28 (Q), 4 (KV) |
| Context Length | 131,072 tokens |
| Vocabulary | 152,064 tokens (BPE) |
| Fine-tuning Method | QLoRA (r=32, 4-bit NF4) |
| Training Hardware | Kaggle T4 x2 (16GB VRAM) |
| Training Duration | ~1.5 jam |
| Precision | Q4_K_M GGUF (4.3 GB) |
🎨 Intended Use
Use Cases
Table with columns: Kategori, Contoh| Kategori | Contoh |
|---|
| Copywriting | Caption IG, FB Ads, copy iklan, teks promosi |
| Konten Kreator | Script TikTok, deskripsi produk, storytelling |
| Brainstorming | Ide konten, konsep campaign, tema postingan |
| Bisnis | Teks promosi, diskon, penawaran spesial, deskripsi toko |
| Daily Assistant | Nulis teks pendek, brainstorming, chat santai |
Out of Scope
- Coding atau technical problem solving kompleks
- Matematika lanjutan atau scientific reasoning
- Multilingual conversation selain Indonesia-Inggris
- Long-form article writing (>500 tokens)
- Real-time information (knowledge cutoff mengikuti base model)
🚀 Cara Pakai
🌐 Demo Online (Langung Coba!)
👉 ripkiiiii-nala-qwen.hf.space — coba langsung tanpa install apapun.
Pilih mode:
- Fast ⚡ → Nala 7B (150 token, temperature 0.7)
- Creative 🎨 → Nala 7B (250 token, temperature 0.85)
- Thinking 🧠 → Nala 7B (400 token, temperature 0.6)
📦 llama-cpp-python
from llama_cpp import Llama
llm = Llama.from_pretrained(
repo_id="ripkiiiii/nala-qwen-7b",
filename="nala-7b-q4_k_m.gguf",
n_ctx=2048,
n_threads=2,
)
output = llm(
"<|im_start|>system
Kamu adalah Nala, asisten AI buatan Elips yang membantu digital creators, freelancer, dan UMKM Indonesia.<|im_end|>
<|im_start|>user
Buat caption IG buat produk kopi kemasan<|im_end|>
<|im_start|>assistant
",
max_tokens=200,
temperature=0.7,
stop=["<|im_end|>", "<|im_start|>"],
)
print(output["choices"][0]["text"].strip())
📦 llama.cpp (CLI)
# Install dulu: brew install llama.cpp
llama-cli -hf ripkiiiii/nala-qwen-7b:Q4_K_M --temp 0.7 --repeat-penalty 1.1 -p "<|im_start|>system
Kamu adalah Nala...<|im_end|>
<|im_start|>user
Halo<|im_end|>
<|im_start|>assistant
"
from transformers import AutoTokenizer, AutoModelForCausalLM
from llama_cpp import Llama
📦 Ollama
ollama run hf.co/ripkiiiii/nala-qwen-7b:Q4_K_M
📦 Docker
docker model run hf.co/ripkiiiii/nala-qwen-7b:Q4_K_M
Nala menggunakan format ChatML:
<|im_start|>system
Kamu adalah Nala, asisten AI buatan Elips yang membantu digital creators, freelancer, dan UMKM Indonesia.<|im_end|>
<|im_start|>user
Buat caption IG buat produk kopi kemasan<|im_end|>
<|im_start|>assistant
Seduh, nikmati, dan ulangi! Kopi kemasan kami siap menemani hari-hari Anda...<|im_end|>
System prompt:
Kamu adalah Nala, asisten AI buatan Elips yang membantu digital creators, freelancer, dan UMKM Indonesia.
🧠 Training Details
Dataset
- ~1.500 sampel ChatML sintetik
- 90/10 train/val split
- Topik: copywriting, konten kreator, promosi, daily chat
- Format: ChatML dengan
messages[] array
Dataset akan segera di-publish di Hugging Face untuk kolaborasi open-source.
Hyperparameters
Table with columns: Parameter, Value| Parameter | Value |
|---|
| LoRA Rank (r) | 32 |
| LoRA Alpha | 64 |
| LoRA Dropout | 0.1 |
| Target Modules | q_proj, k_proj, v_proj, o_proj, gate_proj, up_proj, down_proj |
| 4-bit Quant | NF4 (bitsandbytes) |
| Epochs | 3 |
| Learning Rate | 2e-4 (cosine) |
| Per Device Batch Size | 4 |
| Gradient Accumulation Steps |
Hardware
Table with columns: Komponen, Spesifikasi| Komponen | Spesifikasi |
|---|
| Training | Kaggle T4 x2 (16GB VRAM each) |
| Training Time | ~1.5 jam (3 epoch) |
| Merge | CPU (device_map="cpu") — full precision butuh ~14GB |
| Quantization | Kaggle CPU (32GB RAM) — ~9 menit |
Software Stack
- Python 3.10, PyTorch 2.x, Transformers 4.x
- TRL (SFTTrainer), PEFT (LoRA/QLoRA)
- bitsandbytes (4-bit NF4 quantization)
- llama.cpp (convert_hf_to_gguf.py + llama-quantize)
- llama-cpp-python (inference)
Table with columns: Platform, Speed, Notes| Platform | Speed | Notes |
|---|
| Nala HF Space (7B GGUF) | ~2-3 tok/s | 2 vCPU, free tier |
| Local (Apple Silicon) | ~5-10 tok/s | Tergantung RAM/GPU |
💡 Kolaborasi
Cara Berkontribusi
Nala adalah project open-source. Ada beberapa cara kamu bisa ikut berkontribusi:
- 🐛 Report Issues — liat bug atau saran fitur? Buka issue di repository
- 💬 Diskusi — join diskusi di HF Space untuk brainstorming dataset atau fitur
- 📊 Dataset — mau bantu kumpulin contoh percakapan real? Kontak kami!
- 🔄 Fine-tune — fork repo, fine-tune dengan dataset sendiri, bikin PR
- 🌐 Frontend — bantu develop frontend di ripkiiiii-nala-qwen.hf.space
Roadmap
🏗️ Arsitektur Sistem
flowchart LR
User["👤 User"] --> Gradio["🎨 Gradio UI<br/>Hugging Face Space"]
Gradio --> Fast["Fast ⚡<br/>max_tokens=150<br/>temp=0.7"]
Gradio --> Creative["Creative 🎨<br/>max_tokens=250<br/>temp=0.85"]
Gradio --> Thinking["Thinking 🧠<br/>max_tokens=400<br/>temp=0.6"]
Fast --> Nala["Nala 7B<br/>Q4_K_M GGUF"]
Creative --> Nala
Thinking --> Nala
Nala --> User
⚠️ Limitations
- Synthetic fine-tune — kualitas tergantung dataset generated, mungkin ada biases
- Hallucination — seperti semua LLM, bisa menghasilkan informasi tidak akurat
- Bahasa — optimal untuk Bahasa Indonesia; bahasa campuran (Indo-English) mungkin kurang natural
- Multi-turn terbatas — best effort untuk 2-3 turn conversation
- CPU inference lambat — ~2-3 tok/s di HF Space free tier
- Knowledge cutoff — mengikuti Qwen 2.5 7B (2024)
🔗 Links
📄 License
Apache 2.0 — bebas digunakan, dimodifikasi, dan didistribusikan untuk keperluan komersial maupun non-komersial.
📊 Dataset
Dataset training tersedia publik di Hugging Face:
Format ChatML:
<|im_start|>system
Kamu adalah Nala...
<|im_end|>
<|im_start|>user
...
<|im_end|>
<|im_start|>assistant
...
<|im_end|>