Xkev

gemma-3-1b-it-kk-bes

README

License: mit

Base model: Xkev/gemma-3-1b-it-kk
Dataset: K&K 5k train split
Framework: verl main_ppo with a bidirectional goal-tree search agent loop
Search: budget=200 rollouts, decompose interval=10, backward model google/gemma-3-1b-it
Hyperparameters: lr=1e-6, batch=32, ppo_epochs=1, clip_ratio=0.2, grad_clip=0.3, kl_coef=0, dtype=bf16