namkoong-lab

LatentGym_Qwen3-8B_10episodes_4Envs_LOO_hangman

Deploy Dedicated

Available on FriendliAI

Dedicated Endpoints

Run this model inference on single tenant GPU with unmatched speed and reliability at scale.

Container

Run this model inference with full control and performance in your environment.

Model Details

Model Provider

namkoong-lab

Model Tree

Base

Qwen/Qwen3-8B

Fine-tuned

this model

Input Modalities

Text

Output Modalities

Text

Supported Functionality

Dedicated Endpoints

Container

Explore FriendliAI today

Get started Talk to an engineer

LatentGym_Qwen3-8B_10episodes_4Envs_LOO_hangman API & Inference Endpoint | FriendliAI

README

License: apache-2.0

Environments & training latents

Table with columns: Env, Latents seen during training
Env	Latents seen during training
wordladder	`hub_word_3letter`, `hub_word_4letter`, `order_outside_in`
secretary	`inverse_order`, `fixed_position_2`
number_guessing	`set_of_3`, `range_100`

Training hyperparameters

Table

Base model	`Qwen/Qwen3-8B`
Algorithm	GRPO
Optimizer	AdamW (β₁=0.9, β₂=0.999)
Learning rate	5e-07
LR schedule	constant_with_warmup
Weight decay	0.01
Max grad norm	1.0
KL coefficient β	0.04
Clip range ε