uzairkhn/Almas-Pashto-AI API & Inference Endpoint

Model Details

Base Model: google/gemma-3-4b-it
Architecture: Standalone (Weights fully merged)
Language(s): Pashto (Primary), English
Capabilities: Text Generation, Vision-Language (Image Analysis, OCR)

How to Load and Use

Because this model is a fully merged standalone architecture, you can load it directly using standard Hugging Face transformers libraries without needing any separate adapter configurations.

python
import torch
from transformers import AutoProcessor, AutoModelForImageTextToText, BitsAndBytesConfig

# Direct repository ID
model_id = "uzairkhn/Almas-Pashto-AI"

print("Loading processor...")
processor = AutoProcessor.from_pretrained(model_id)

print("Configuring 4-bit quantization...")
bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_compute_dtype=torch.bfloat16
)

print("Loading Almas Pashto AI...")
model = AutoModelForImageTextToText.from_pretrained(
    model_id,
    quantization_config=bnb_config,
    device_map="auto"
)

# Example Inference
test_prompt = "مصنوعي استخبارات څه شی دی؟"

messages = [
    {"role": "user", "content": [{"type": "text", "text": test_prompt}]}
]

text = processor.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = processor(text=[text], return_tensors="pt").to(model.device)

with torch.no_grad():
    outputs = model.generate(
        **inputs,
        max_new_tokens=512,
        temperature=0.7,
        do_sample=True,
        repetition_penalty=1.1
    )

generated_text = processor.decode(outputs[0][inputs["input_ids"].shape[-1]:], skip_special_tokens=True)
print(generated_text)

Model Details

Base Model: google/gemma-3-4b-it
Architecture: Standalone (Weights fully merged)
Language(s): Pashto (Primary), English
Capabilities: Text Generation, Vision-Language (Image Analysis, OCR)

How to Load and Use

Because this model is a fully merged standalone architecture, you can load it directly using standard Hugging Face transformers libraries without needing any separate adapter configurations.

python
import torch
from transformers import AutoProcessor, AutoModelForImageTextToText, BitsAndBytesConfig

# Direct repository ID
model_id = "uzairkhn/Almas-Pashto-AI"

print("Loading processor...")
processor = AutoProcessor.from_pretrained(model_id)

print("Configuring 4-bit quantization...")
bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_compute_dtype=torch.bfloat16
)

print("Loading Almas Pashto AI...")
model = AutoModelForImageTextToText.from_pretrained(
    model_id,
    quantization_config=bnb_config,
    device_map="auto"
)

# Example Inference
test_prompt = "مصنوعي استخبارات څه شی دی؟"

messages = [
    {"role": "user", "content": [{"type": "text", "text": test_prompt}]}
]

text = processor.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = processor(text=[text], return_tensors="pt").to(model.device)

with torch.no_grad():
    outputs = model.generate(
        **inputs,
        max_new_tokens=512,
        temperature=0.7,
        do_sample=True,
        repetition_penalty=1.1
    )

generated_text = processor.decode(outputs[0][inputs["input_ids"].shape[-1]:], skip_special_tokens=True)
print(generated_text)

Almas-Pashto-AI

Get help setting up a custom Dedicated Endpoints.

README

Model Details

How to Load and Use

Explore FriendliAI today

README

Model Details

How to Load and Use