Xkev

gemma-3-1b-it-kk

README

License: mit

Base model: google/gemma-3-1b-it
Dataset: K&K puzzles (1k subset), formatted as chat with reasoning + JSON answer
Framework: verl sft_trainer
Hyperparameters: lr=1e-5, weight_decay=0.01, lr_warmup_ratio=0.1, cosine schedule, epochs=3, dtype=bf16