ynakazat11

llm-jp-4-8b-instruct-sansu

README

License: apache-2.0

🇯🇵 日本語

モデル概要

中学受験算数（小学5-6年生レベル）の問題に対して、段階的で読みやすい解説形式を出すように、llm-jp/llm-jp-4-8b-instruct をQLoRAで微調整したモデルです。

教師モデル（Claude Sonnet 4.6）が生成した3,189件の解説を蒸留学習しています。元の訓練候補は3,213問で、極端に短い問題・解説を除外した後の3,189件を学習に使いました。出力は方程式・代数を避け、つるかめ算・差集め算・面積図・線分図・比 など算数の解法に寄せる方向で調整されています。

重要：このモデルは「正答率を保証するモデル」ではありません。訓練解説はSonnet生成であり、監査では教師データ・モデル出力の両方に誤答が見つかっています。

用途（研究・教育目的）

中学受験対策（5-6年生向け）の算数解説生成
算数の指導教材作成支援
小学校算数の問題に対する段階的解説
日本語SLMの蒸留手法に関する学術・実務研究

想定外の用途

汎用AIアシスタント／チャットボット用途（本モデルは特定ドメイン専用です）
自動採点、正答生成、答え合わせの最終判断
子どもへ無監督で提示する教材生成
中学・高校以降の数学（方程式、関数、三角比など）の解説
国語、理科、社会など算数以外の科目
算数以外の日本語タスク全般（性能評価していません）
Claude／GPT等のフロンティアAIサービスと競合するプロダクトの基盤としての使用

商用利用について

本モデルはApache 2.0ライセンスでリリースしていますが、訓練データの一部はClaude Sonnet 4.6が生成しており、Anthropic社のCommercial Terms第D.4条（競合製品の禁止）の制約を受けます。本モデルを商用利用する際は、利用者ご自身でAnthropicの最新の利用規約を確認してください。

注意・既知の制約

正答率は今回のスコープ外です。 最終的な答えは必ず人間または公式解答で確認してください。Sonnet 4.6の回答に誤答が複数検知されています。
蒸留の上限は教師モデル（Claude Sonnet 4.6）の能力に依存します。 Sonnet 4.6 が間違える問題では、本モデルも間違える可能性があります。
訓練データの解説はSonnet 4.6が生成したものであり、塾講師の解説そのものではありません。 模範解答書の解説とは表現が異なる場合があります。
算数以外のタスクには評価していません。 国語の文章題、理科、社会、雑談などへの性能は不明です。

使用例

python
from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "ynakazat11/llm-jp-4-8b-instruct-sansu"
tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(model_id, trust_remote_code=True, torch_dtype="bfloat16", device_map="auto")

system = (
    "あなたは中学受験算数を教える先生です。"
    "問題文を読み、小学生にもわかるように、算数の手法（つるかめ算・差集め算・"
    "面積図・線分図・比など）を使って段階的に解説してください。"
    "文字式・方程式・代数（x, y などの未知数を立てる方法）は使わないでください。"
)
user = "270mの道の端から端まで桜の木を植えます。木と木の間隔を9mにすると、木は何本植えられますか。"

messages = [{"role": "system", "content": system}, {"role": "user", "content": user}]
prompt = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
out = model.generate(**inputs, max_new_tokens=512, temperature=0.3)
print(tokenizer.decode(out[0][inputs["input_ids"].shape[1]:], skip_special_tokens=True))

ライセンス

本モデルはApache 2.0でリリースしています。ベースモデル（llm-jp/llm-jp-4-8b-instruct）のライセンスも併せてご確認ください。

Uploaded finetuned model

Developed by: ynakazat11
License: apache-2.0
Finetuned from model : llm-jp/llm-jp-4-8b-instruct

This llama model was trained 2x faster with Unsloth and Huggingface's TRL library.

Available on FriendliAI

Dedicated Endpoints

Run this model inference on single tenant GPU with unmatched speed and reliability at scale.

Learn more

Container

Run this model inference with full control and performance in your environment.

Learn more

Model Details

Model Provider

ynakazat11

Model Tree

Base

llm-jp/llm-jp-4-8b-instruct

Fine-tuned

this model

Input Modalities

Text

Output Modalities