ripkiiiii

nala-qwen-7b

README

License: apache-2.0

🎯 Tentang Nala

Nala adalah AI assistant berbasis Qwen 2.5 7B yang di-fine-tune khusus untuk membantu digital creators, freelancer, dan UMKM Indonesia. Nala bisa bikin caption IG, deskripsi produk, script TikTok, brainstorming ide, teks promosi, dan banyak lagi — semuanya dalam Bahasa Indonesia yang natural dan engaging.

Dikembangkan oleh Elips sebagai asisten AI gratis untuk ekosistem kreatif Indonesia.

✨ Keunggulan

🇮🇩 100% Bahasa Indonesia — natural, ga kaku, paham konteks lokal
🎯 3 Mode Nala — Fast ⚡, Creative 🎨, Thinking 🧠 (semua pure Nala 7B fine-tuning)
🆓 Gratis — dijalankan di HF Space free tier
📱 Mobile-friendly — antarmuka chat yang ringan

🏗️ Model Details

Table with columns: Detail, Value
Detail	Value
Base Model	Qwen/Qwen2.5-7B
Architecture	Transformer with RoPE, SwiGLU, RMSNorm, GQA
Parameters	7.61B total (6.53B non-embedding)
Layers	28
Attention Heads	28 (Q), 4 (KV)
Context Length	131,072 tokens
Vocabulary	152,064 tokens (BPE)
Fine-tuning Method	QLoRA (r=32, 4-bit NF4)
Training Hardware	Kaggle T4 x2 (16GB VRAM)
Training Duration	~1.5 jam
Precision	Q4_K_M GGUF (4.3 GB)

🎨 Intended Use

Use Cases

Table with columns: Kategori, Contoh
Kategori	Contoh
Copywriting	Caption IG, FB Ads, copy iklan, teks promosi
Konten Kreator	Script TikTok, deskripsi produk, storytelling
Brainstorming	Ide konten, konsep campaign, tema postingan
Bisnis	Teks promosi, diskon, penawaran spesial, deskripsi toko
Daily Assistant	Nulis teks pendek, brainstorming, chat santai

Out of Scope

Coding atau technical problem solving kompleks
Matematika lanjutan atau scientific reasoning
Multilingual conversation selain Indonesia-Inggris
Long-form article writing (>500 tokens)
Real-time information (knowledge cutoff mengikuti base model)

🚀 Cara Pakai

🌐 Demo Online (Langung Coba!)

👉 ripkiiiii-nala-qwen.hf.space — coba langsung tanpa install apapun.

Pilih mode:

Fast ⚡ → Nala 7B (150 token, temperature 0.7)
Creative 🎨 → Nala 7B (250 token, temperature 0.85)
Thinking 🧠 → Nala 7B (400 token, temperature 0.6)

📦 llama-cpp-python

python
from llama_cpp import Llama

llm = Llama.from_pretrained(
    repo_id="ripkiiiii/nala-qwen-7b",
    filename="nala-7b-q4_k_m.gguf",
    n_ctx=2048,
    n_threads=2,  # sesuaikan dengan CPU kamu
)

output = llm(
    "<|im_start|>system
Kamu adalah Nala, asisten AI buatan Elips yang membantu digital creators, freelancer, dan UMKM Indonesia.<|im_end|>
<|im_start|>user
Buat caption IG buat produk kopi kemasan<|im_end|>
<|im_start|>assistant
",
    max_tokens=200,
    temperature=0.7,
    stop=["<|im_end|>", "<|im_start|>"],
)
print(output["choices"][0]["text"].strip())

📦 llama.cpp (CLI)

bash
# Install dulu: brew install llama.cpp
llama-cli -hf ripkiiiii/nala-qwen-7b:Q4_K_M   --temp 0.7   --repeat-penalty 1.1   -p "<|im_start|>system
Kamu adalah Nala...<|im_end|>
<|im_start|>user
Halo<|im_end|>
<|im_start|>assistant
"

📦 Transformers (via llama-cpp-hf)

python
from transformers import AutoTokenizer, AutoModelForCausalLM
from llama_cpp import Llama

# GGUF didukung via llama-cpp-hf wrapper
# Alternatif: download safetensors dari Qwen/Qwen2.5-7B

📦 Ollama

bash
ollama run hf.co/ripkiiiii/nala-qwen-7b:Q4_K_M

📦 Docker

bash
docker model run hf.co/ripkiiiii/nala-qwen-7b:Q4_K_M

📋 Format ChatML

Nala menggunakan format ChatML:

markdown
<|im_start|>system
Kamu adalah Nala, asisten AI buatan Elips yang membantu digital creators, freelancer, dan UMKM Indonesia.<|im_end|>
<|im_start|>user
Buat caption IG buat produk kopi kemasan<|im_end|>
<|im_start|>assistant
Seduh, nikmati, dan ulangi! Kopi kemasan kami siap menemani hari-hari Anda...<|im_end|>

System prompt:

markdown
Kamu adalah Nala, asisten AI buatan Elips yang membantu digital creators, freelancer, dan UMKM Indonesia.

🧠 Training Details

Dataset

~1.500 sampel ChatML sintetik
90/10 train/val split
Topik: copywriting, konten kreator, promosi, daily chat
Format: ChatML dengan messages[] array

Dataset akan segera di-publish di Hugging Face untuk kolaborasi open-source.

Hyperparameters

Table with columns: Parameter, Value
Parameter	Value
LoRA Rank (r)	32
LoRA Alpha	64
LoRA Dropout	0.1
Target Modules	q_proj, k_proj, v_proj, o_proj, gate_proj, up_proj, down_proj
4-bit Quant	NF4 (bitsandbytes)
Epochs	3
Learning Rate	2e-4 (cosine)
Per Device Batch Size	4
Gradient Accumulation Steps

Hardware

Table with columns: Komponen, Spesifikasi
Komponen	Spesifikasi
Training	Kaggle T4 x2 (16GB VRAM each)
Training Time	~1.5 jam (3 epoch)
Merge	CPU (device_map="cpu") — full precision butuh ~14GB
Quantization	Kaggle CPU (32GB RAM) — ~9 menit

Software Stack

Python 3.10, PyTorch 2.x, Transformers 4.x
TRL (SFTTrainer), PEFT (LoRA/QLoRA)
bitsandbytes (4-bit NF4 quantization)
llama.cpp (convert_hf_to_gguf.py + llama-quantize)
llama-cpp-python (inference)

📊 Performance

Table with columns: Platform, Speed, Notes
Platform	Speed	Notes
Nala HF Space (7B GGUF)	~2-3 tok/s	2 vCPU, free tier
Local (Apple Silicon)	~5-10 tok/s	Tergantung RAM/GPU

💡 Kolaborasi

Cara Berkontribusi

Nala adalah project open-source. Ada beberapa cara kamu bisa ikut berkontribusi:

🐛 Report Issues — liat bug atau saran fitur? Buka issue di repository
💬 Diskusi — join diskusi di HF Space untuk brainstorming dataset atau fitur
📊 Dataset — mau bantu kumpulin contoh percakapan real? Kontak kami!
🔄 Fine-tune — fork repo, fine-tune dengan dataset sendiri, bikin PR
🌐 Frontend — bantu develop frontend di ripkiiiii-nala-qwen.hf.space

Roadmap

Qwen 2.5 7B LoRA fine-tune
GGUF Q4_K_M quantization
HF Space deployment dengan llama-cpp-python
Multi-mode Nala (Fast/Creative/Thinking)
Dataset publik di Hugging Face
Fine-tune dengan dataset real (bukan sintetik)
Support multi-turn conversation yang lebih baik
Knowledge retrieval (RAG) untuk info up-to-date
Versi lebih kecil (3B/1.5B) untuk local deployment

🏗️ Arsitektur Sistem

mermaid
flowchart LR
    User["👤 User"] --> Gradio["🎨 Gradio UI<br/>Hugging Face Space"]
    Gradio --> Fast["Fast ⚡<br/>max_tokens=150<br/>temp=0.7"]
    Gradio --> Creative["Creative 🎨<br/>max_tokens=250<br/>temp=0.85"]
    Gradio --> Thinking["Thinking 🧠<br/>max_tokens=400<br/>temp=0.6"]
    Fast --> Nala["Nala 7B<br/>Q4_K_M GGUF"]
    Creative --> Nala
    Thinking --> Nala
    Nala --> User

⚠️ Limitations

Synthetic fine-tune — kualitas tergantung dataset generated, mungkin ada biases
Hallucination — seperti semua LLM, bisa menghasilkan informasi tidak akurat
Bahasa — optimal untuk Bahasa Indonesia; bahasa campuran (Indo-English) mungkin kurang natural
Multi-turn terbatas — best effort untuk 2-3 turn conversation
CPU inference lambat — ~2-3 tok/s di HF Space free tier
Knowledge cutoff — mengikuti Qwen 2.5 7B (2024)

🔗 Links

Table with columns: Link, URL
Link	URL
Demo (Frontend)	ripkiiiii-nala-qwen.hf.space
HF Space (API)	ripkiiiii/nala-qwen
Model	ripkiiiii/nala-qwen-7b
Base Model	Qwen/Qwen2.5-7B

📄 License

Apache 2.0 — bebas digunakan, dimodifikasi, dan didistribusikan untuk keperluan komersial maupun non-komersial.

📊 Dataset

Dataset training tersedia publik di Hugging Face:

ripkiiiii/nala-dataset — 2,400+ ChatML rows (UMKM, freelancer, digital creator)

Format ChatML:

markdown
<|im_start|>system
Kamu adalah Nala...
<|im_end|>
<|im_start|>user
...
<|im_end|>
<|im_start|>assistant
...
<|im_end|>

Available on FriendliAI

Dedicated Endpoints

Run this model inference on single tenant GPU with unmatched speed and reliability at scale.

Learn more

Container

Run this model inference with full control and performance in your environment.