plvictor/Alef-Biblical-1.5B-Base API & Inference Endpoint

Por que o Alef existe?

A maioria dos modelos de IA especializados em Bíblia e teologia é em inglês. A comunidade de IA brasileira ainda tem muito espaço pra crescer nesse nicho — e o Alef nasceu justamente disso: a vontade de construir algo em português, com cuidado, e de compartilhar o processo de forma aberta.

Este projeto foi desenvolvido por um desenvolvedor solo como experimento de fine-tuning especializado em PT-BR. O objetivo não é competir com grandes modelos — é mostrar que dá pra fazer isso com acesso limitado, documentar o caminho, e ajudar a comunidade brasileira de IA a evoluir junto.

Sobre o modelo

Table
Campo	Valor
Arquitetura	Qwen3
Parâmetros	1.51B
Tipo	Base (text completion)
Idioma	Português Brasileiro (PT-BR)
Domínio	Bíblia, teologia, fé cristã
Context length	4096 tokens
Dtype	BFloat16

Modelo base: Polygl0t/Tucano2-qwen-1.5B-Base — modelo base para português da família Qwen3.

Treino — Continued Pre-Training (CPT)

O modelo passou por CPT em um corpus bíblico curado de ~368 milhões de tokens em português, cobrindo devocionais, estudos, planos de leitura, Bíblias em múltiplas traduções e conteúdo de sites teológicos.

Dataset

Table
Fonte	Documentos	Tokens est.
Devocionais — app Com Ele	157.910	~102M
Planos de leitura — app Com Ele	35.956	~189M
Estudos bíblicos — app Com Ele	5.000	~20M
Q&A bíblico — app Com Ele	15.843	~13M
Bíblia em 10 traduções PT — app Com Ele	11.437	~10M
Resumos e análises de livros — app Com Ele	2.378	~1M
Personagens, mapas, contexto histórico — app Com Ele	~2.000	~0.7M
Sintético (GPT-4.1)	982	~2.5M
voltemosaoevangelho.com	5.529	~14M
bibliotecadopregador.com.br	4.276	~10M
estudobiblico.org	558	~4M
pt.ligonier.org	726	~2M
Total	241.167	~368M

Configuração

Table
Parâmetro	Valor
Tipo	Full fine-tuning (CPT)
Precisão	BFloat16
Attention	SDPA
Tokens por step	~540k
GPU	NVIDIA H100 NVL (95GB VRAM)
Framework	HuggingFace Transformers

Uso

python
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

model_id = "plvictor/Alef-Biblical-1.5B-Base"

tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype=torch.bfloat16,
    device_map="auto"
)

prompt = "O livro de Jó nos ensina que o sofrimento"
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
output = model.generate(**inputs, max_new_tokens=200, do_sample=True, temperature=0.7)
print(tokenizer.decode(output[0], skip_special_tokens=True))

Para conversa e assistência bíblica, use plvictor/Alef-Biblical-1.5B-Instruct.

Limitações

Modelo pequeno (1.5B): bom pra consultas e conversas bíblicas, não substitui modelos maiores em raciocínio complexo
Especializado em PT-BR e conteúdo cristão — não adequado para uso genérico
Pode refletir perspectivas teológicas predominantes no corpus

Sobre o criador

Desenvolvido por Paulo Victor Souza — desenvolvedor brasileiro, construindo projetos de IA em português. Site: plvictor.com

Licença

Apache 2.0

Alef-Biblical-1.5B-Base

Get help setting up a custom Dedicated Endpoints.

README