Unkuk
k-tour-qwen3vl-8b-v2
Run this model inference on single tenant GPU with unmatched speed and reliability at scale.
Run this model inference with full control and performance in your environment.
Get help setting up a custom Dedicated Endpoints.
Talk with our engineer to get a quote for reserved GPU instances with discounts.
README
License: apache-2.01. Model Description
- 베이스:
Qwen/Qwen3-VL-8B-Instruct(apache-2.0) - 학습 방식: LoRA (r=8, alpha=16, dropout=0.05, target=q/k/v/o/gate/up/down) → 단계별 학습 후 베이스에 머지 (merged 형태로 배포)
- 학습 단계: CPT (image+caption 984) → SFT (image+messages 1,312, 한국어 2 페르소나) → DPO/SimPO (chosen/rejected 400)
- 페르소나: 외국인 관광객 (한국어 응답) / 내국인 여행자 (캐주얼 한국어)
- 출력 형식: 본문 응답 +
[출처: POI명, 카테고리, 시군구, 좌표, 평균 만족도]라인
2. Usage
2.1 Quick Start
python
from transformers import AutoModelForImageTextToText, AutoProcessorfrom PIL import Imageprocessor = AutoProcessor.from_pretrained("Unkuk/k-tour-qwen3vl-8b-v2")model = AutoModelForImageTextToText.from_pretrained("Unkuk/k-tour-qwen3vl-8b-v2",device_map="auto", torch_dtype="bfloat16",)img = Image.open("jeju.jpg").convert("RGB")msgs = [{"role": "user", "content": [{"type": "image", "image": img},{"type": "text", "text": "여기 가족이랑 가볼 만한가요?"},]}]text = processor.apply_chat_template(msgs, add_generation_prompt=True, tokenize=False)inputs = processor(text=[text], images=[img], return_tensors="pt").to("cuda")out = model.generate(**inputs, max_new_tokens=256)print(processor.batch_decode(out, skip_special_tokens=True)[0])
2.2 Example Outputs
본 모델이 실제로 생성한 응답 예시입니다. 각 이미지는 본 repo 의 images/ 폴더에 함께 저장되어 있어, Hub UI 의 카드 페이지에서 바로 미리보기 됩니다.
예시 1. 성산일출봉 (자연관광지)

질문: 여기 가족이랑 가볼 만한가요?
모델 응답:
성산일출봉으로 보이네요. 완만한 등산로가 잘 정비되어 있어 아이와 함께 일출을 보기 좋고, 매표소에서 입장권을 사야 합니다.
[출처: 성산일출봉, 자연관광지, 서귀포시 성산읍, (33.4583, 126.9425), 4.6/5.0]
예시 2. 협재해수욕장 (해변)

질문: 이 해변 어떤 곳인가요?
모델 응답:
협재해수욕장으로 보입니다. 에메랄드빛 바다와 비양도 풍경이 어우러진 곳으로, 모래가 곱고 수심이 얕아 가족 물놀이에 적합합니다.
[출처: 협재해수욕장, 해변, 제주시 한림읍, (33.3946, 126.2398), 4.5/5.0]
3. Training Details
- 데이터 규모: CPT 984 / SFT 1,312 / DPO 400
- 하드웨어: <TODO: RunPod L40s 48GB 등>
- 1 epoch 학습 시간: CPT ~20분, SFT ~35분, DPO ~35분
- 머지 방식: 양자화된 베이스 + LoRA →
merge_and_unload()→ 단일 모델로 저장 - 최종 크기: ~8-9GB (양자화 머지 적용 시) / ~16GB (FP16 머지)
- 옵티마이저(머지 전): 8-bit AdamW, lr_sft=2e-5, lr_dpo=5e-7
4. Evaluation (Day11~12 holdout 262건)
| Metric | baseline | CPT 후 | SFT 후 | DPO 후 |
|---|---|---|---|---|
| T1 mm ppl Δ% (↓ 좋음) | 0.0 | -54.2 | ||
| T2 HAE-RAE ppl Δ% (≤+10%) | 0.0 | 8.7 | ||
| T3-format 출처 부착률 % | 0 | 0 | 85.5 | |
| T3a Citation Factuality (4필드) % | <5 | <5 | 62.3 | |
| T3b POPE-POI F1 | ~50 | 73.1 |
5. Limitations and Biases
- 학습 도메인: 제주 POI 한정. 음식/문화재/숙박 카테고리 미커버
- 학습 언어: 한국어 응답만. 영문 페르소나 미학습
- POI 환각: T3a 4필드 일치율 ~62.3% 로, 인용 라인의 사실성은 완전하지 않음
- POPE-POI 부정 페어가 popular POI 로만 구성됨 — 실제 분포와 다를 수 있음
6. License & Acknowledgments
- Base:
Qwen/Qwen3-VL-8B-Instruct(apache-2.0) - This model: apache-2.0 (베이스 라이선스 상속)
- Data: AI-HUB 제주 관광 POI 데이터 (공공데이터, 출처 표기 + 비상업)
- Frameworks: 🤗 PEFT, 🤗 TRL (SFTTrainer, DPOTrainer with SimPO loss)
Model provider
Unkuk
Model tree
Base
Qwen/Qwen3-VL-8B-Instruct
Merged
this model
Modalities
Input
Text, Image
Output
Text
Pricing
Dedicated Endpoints
View detailsSupported Functionality
Model APIs
Dedicated Endpoints
Container
More information