Dedicated Endpoints

Run this model inference on single tenant GPU with unmatched speed and reliability at scale.

Learn more

Get help setting up a custom Dedicated Endpoints.

Talk with our engineer to get a quote for reserved GPU instances with discounts.

README

License: apache-2.0

Training Loss Curve

The following graph shows the training loss trend during the QLoRA fine-tuning process using Unsloth on Qwen 3.5 9B.

image

The loss curve indicates a generally decreasing trend during training, suggesting that the model successfully adapted to the conversational and educational patterns present in the dataset.


Qualitative Evaluation

After fine-tuning, the model demonstrated improvements in:

  • conversational warmth,
  • educational clarity,
  • step-by-step explanation quality,
  • supportive tone,
  • and student-friendly interaction behavior.

Compared to the base model, KindlyLM-EDU responses became more engaging and easier for beginner learners to understand.


Example Output Comparison

  • Question: bisa jelaskan apa itu transformer dalam machine learning?

Base Model

Tentu, mari kita bahas Transformer dalam konteks Machine Learning (khususnya Deep Learning).

Secara singkat, Transformer adalah sebuah arsitektur jaringan saraf tiruan (neural network) yang dirancang khusus untuk memproses data berurutan (seperti teks, audio, atau video) dengan sangat efisien.

Istilah ini pertama kali diperkenalkan oleh tim peneliti dari Google pada tahun 2017 dalam makalah berjudul "Attention Is All You Need". Arsitektur ini menjadi fondasi bagi hampir semua model kecerdasan buatan (AI) canggih saat ini, seperti GPT (ChatGPT), BERT, dan banyak lainnya.

Berikut adalah penjelasan mendalam namun mudah dipahami tentang apa itu Transformer:


1. Masalah yang Diselesaikan Transformer

Sebelum Transformer muncul, model yang populer untuk memproses teks adalah RNN (Recurrent Neural Network) atau LSTM.

  • Masalah RNN: RNN memproses kata satu per satu dari kiri ke kanan (seperti membaca buku). Ini sangat lambat dan sulit mengingat konteks dari kata yang jauh di awal kalimat.
  • Solusi Transformer: Transformer tidak memproses kata satu per satu. Ia memproses seluruh kalimat sekaligus secara paralel. Ini membuatnya jauh lebih cepat dan mampu memahami konteks yang lebih baik.

2. Inti dari Transformer: "Attention Mechanism"

Ini adalah bagian terpenting. Dalam bahasa manusia, kita sering kali "memperhatikan" kata-kata tertentu dalam sebuah kalimat untuk memahami maknanya.

  • Contoh: Dalam kalimat "The animal didn't cross the street because it was too tired", kata "it" merujuk pada "animal", bukan "street".
  • Cara Transformer: Mekanisme Attention memungkinkan model untuk menghubungkan kata "it" dengan kata "animal" secara langsung, meskipun ada kata lain di antaranya. Ini disebut Self-Attention (memperhatikan kata lain dalam kalimat yang sama).

3. Struktur Utama: Encoder dan Decoder

Transformer terdiri dari dua bagian utama yang bekerja berlawanan arah:

  1. Encoder (Enkoder):
    • Bertugas untuk memahami input.
    • Mengubah input (misalnya teks) menjadi representasi vektor yang kaya makna.
    • Digunakan dalam model seperti BERT (Bidirectional Encoder Representations from Transformers).
  2. Decoder (Dekoder):
    • Bertugas untuk membuat/menghasilkan output.
    • Membaca representasi dari Encoder dan menghasilkan teks baru (misalnya menerjemahkan bahasa atau menjawab pertanyaan).
    • Digunakan dalam model seperti GPT (Generative Pre-trained Transformer).

4. Komponen Penting Lainnya

  • Positional Encoding: Karena Transformer memproses semua kata sekaligus (tidak ada urutan waktu seperti RNN), model tidak tahu posisi kata mana yang mana. Positional Encoding adalah teknik matematika untuk memberi tahu model posisi setiap kata dalam kalimat (misalnya: kata pertama, kata kedua, dst).
  • Multi-Head Attention: Transformer tidak hanya fokus pada satu jenis hubungan antar kata, tetapi memiliki beberapa "kepala" (head) yang melihat hubungan dari sudut pandang berbeda secara bersamaan.

5. Mengapa Transformer Sangat Populer?

  1. Kecepatan: Karena memproses data secara paralel (bukan berurutan), latensi pemrosesan jauh lebih rendah.
  2. Konteks Panjang: Transformer bisa mengingat hubungan antara kata yang berjarak sangat jauh dalam kalimat (misalnya awal dan akhir paragraf).
  3. Skalabilitas: Model ini bisa dilatih dengan data yang sangat besar (Big Data) dan parameter yang sangat banyak tanpa menjadi terlalu lambat.
  4. Fleksibilitas: Awalnya dibuat untuk NLP (Natural Language Processing), tapi sekarang bisa dipakai untuk Computer Vision (pengolahan gambar) dan Audio.

6. Contoh Model Berbasis Transformer

  • BERT: Fokus pada pemahaman bahasa (membaca teks untuk menjawab pertanyaan).
  • GPT (Generative Pre-trained Transformer): Fokus pada pembuatan teks (menulis cerita, menjawab chat, coding).
  • T5: Model yang bisa melakukan berbagai tugas (terjemahan, ringkasan, pertanyaan) dengan satu arsitektur yang sama.
  • Vision Transformer (ViT): Menggunakan arsitektur Transformer untuk memproses gambar (seperti menggantikan CNN).

Kesimpulan

Transformer adalah arsitektur Deep Learning yang menggunakan mekanisme Attention untuk memproses data berurutan secara paralel. Ia menggantikan model lama (RNN/LSTM) karena lebih cepat, lebih akurat dalam memahami konteks, dan menjadi dasar dari revolusi AI Generatif (seperti ChatGPT) yang kita gunakan sekarang.

Apakah ada bagian spesifik dari penjelasan di atas yang ingin Anda gali lebih dalam?

KindlyLM-EDU

Tentu! Ini soal yang sangat relevan di dunia teknologi sekarang. Transformasi dalam machine learning memang sering jadi titik balik banyak hal. Tenang, kita breakdown bareng:

1. Apa itu Transformer?

Secara sederhana, Transformer adalah arsitektur jaringan saraf tiruan (neural network) yang dirancang untuk memahami dan memproses bahasa secara lebih efisien. Kalau kamu mau analogi dunia nyata: ini seperti sistem yang belajar membaca kalimat tanpa harus membaca kata demi kata dari kiri ke kanan — semua bagian bisa dipahami bersamaan.

Kamu pasti pernah dengar istilah seperti GPT atau BERT, itu semua berbasis Transformer.

2. Kenapa Transformer Penting?

Sebelum ada Transformer, model bahasa biasanya pakai RNN (Recurrent Neural Network) atau LSTM. Masalahnya, cara kerjanya lambat karena harus proses satu per satu. Transformer mengubah cara kerja ini dengan fitur utama: Attention Mechanism.

Kalo nggak salah, ide dasarnya dari paper "Attention Is All You Need" tahun 2017 oleh tim Google. Ide utamanya tuh tentang bagaimana manusia memahami konteks — bukan cuma urutan kata, tapi hubungan antar kata.

3. Cara Kerja Transformer (Sederhananya)

Kalau kita ibaratkan masak:

  • Input: Bahan-bahan mentah (data teks/gambar)
  • Process: Masak dengan resep (model)
  • Output: Makanan jadi (prediksi)

Di Transformer, ada beberapa komponen kunci:

  • Embedding: Mengubah kata jadi angka
  • Positional Encoding: Menambahkan info posisi (kata ke-1, ke-2, dst)
  • Multi-head Attention: Belajar melihat berbagai sudut masalah sekaligus
  • Feed Forward Networks: Proses berpikir lebih dalam
  • Masking: Menyembunyikan informasi tertentu saat latihan

4. Contoh Penggunaan Nyata

Kamu udah pasti ngerti kalau udah pernah nyoba chatbot atau translate otomatis:

  • NLP: Chatbot, terjemahan otomatis, analisis sentimen
  • Computer Vision: Deteksi objek, klasifikasi gambar
  • Tabular Data: Prediksi harga saham, rekomendasi produk

Fakta menariknya, Transformer sekarang dipakai hampir di semua area AI, bukan cuma bahasa.

5. Tantangan dan Masa Depan

Meskipun powerful, Transformer punya tantangan: butuh banyak komputasi dan data. Tapi perkembangan terus terjadi — ada versi yang lebih ringan dan efisien. Kalau kamu mau eksplorasi lebih dalam, coba cari tutorial implementasinya di Python dulu, itu cara terbaik buat paham!


Jadi intinya: Transformer = revolusi cara mesin belajar bahasa dan pola. Kalau kamu belum pernah coding sebelumnya, jangan khawatir — semua orang juga pernah bingung soal ini! Kalo boleh tahu, kamu lagi belajar ini dari mana? Ada referensi yang bikin kamu penasaran nggak?

Persona CriteriaBase ModelFine-TunedWinner
Student-friendly6/109/10✅ FT
Concise3/107/10✅ FT
Step-by-step8/108/10🤝 Draw
Analogy & Simplification5/109/10✅ FT
Supportive4/109/10✅ FT
Conversational Hook5/1010/10✅ FT
Uncertainty-aware3/107/10✅ FT
Technical Accuracy9/107/10⚠️ Base

The fine-tuned model shows stronger educational guidance behavior and a more supportive tutoring style.


License

Apache 2.0


Model provider

zekiell

Model tree

Base

Qwen/Qwen3.5-9B

Quantized

this model

Modalities

Input

Video, Text, Image

Output

Text

Pricing

Dedicated Endpoints

View details

Supported Functionality

Model APIs

Dedicated Endpoints

Container

More information

Explore FriendliAI today