akiroussama

bebe-gpt-ca-titres

Dedicated Endpoints

Run this model inference on single tenant GPU with unmatched speed and reliability at scale.

Container

Run this model inference with full control and performance in your environment.

Get help setting up a custom Dedicated Endpoints.

Talk with our engineer to get a quote for reserved GPU instances with discounts.

License: mit

Table
Champ	Valeur
Architecture	GPT2 décodeur — `n_layer=4`, `n_head=4`, `n_embd=128`, `n_ctx=128`
Paramètres	~7,2 M (7 242 624)
Tokenizer	GPT2 BPE standard (vocab 50257)
Pré-entraînement	aucun (from scratch)
Entraînement	80 epochs, AdamW lr 5e-4, ~3 min sur CPU, perte finale 0,167
Format	`safetensors` (Hugging Face) et `bebe-gpt-ca-titres.gguf` (f16, 16 Mo)
Filières	VALEURS_MOBILIERES, EPARGNE_SALARIALE, EPARGNE_BANCAIRE, MOBILITE_BANCAIRE

Le GGUF embarque un template de chat. Dans l'onglet Chat, tape la demande en français naturel et envoie — la filière sort :

markdown
passer un ordre d'achat sur une action   ->  VALEURS_MOBILIERES
cloturer mon depot a terme                ->  EPARGNE_BANCAIRE

Régler Temperature = 0. Runtime CPU (avx2) recommandé.

Modèle de complétion : amorcer avec {demande} => (sans espace après le => — l'espace casse la tokenisation BPE), greedy.

markdown
prompt : "passer un ordre d'achat sur une action =>"
sortie : " VALEURS_MOBILIERES"

Sur un banc de 10 phrases tenues à l'écart de l'entraînement : 10/10 de bonne filière (en complétion brute et dans LM Studio).

Aucun « je ne sais pas ». Hors domaine, il force une filière avec aplomb (« quelle est la capitale de la France » → une filière au hasard). Il ne comprend pas : il complète.
Sur-apprentissage assumé sur 120 exemples ; sensible au format du prompt.
Pas de garde-fous (ton, refus, sûreté) : c'est ce qu'un vrai LLM ajoute, invisible sur 4 filières.