Unkuk

k-tour-qwen3vl-8b-v2

Deploy Dedicated

README

License: apache-2.0

1. Model Description

베이스: Qwen/Qwen3-VL-8B-Instruct (apache-2.0)
학습 방식: LoRA (r=8, alpha=16, dropout=0.05, target=q/k/v/o/gate/up/down) → 단계별 학습 후 베이스에 머지 (merged 형태로 배포)
학습 단계: CPT (image+caption 984) → SFT (image+messages 1,312, 한국어 2 페르소나) → DPO/SimPO (chosen/rejected 400)
페르소나: 외국인 관광객 (한국어 응답) / 내국인 여행자 (캐주얼 한국어)
출력 형식: 본문 응답 + [출처: POI명, 카테고리, 시군구, 좌표, 평균 만족도] 라인

2. Usage

2.1 Quick Start

python
from transformers import AutoModelForImageTextToText, AutoProcessor
from PIL import Image

processor = AutoProcessor.from_pretrained("Unkuk/k-tour-qwen3vl-8b-v2")
model = AutoModelForImageTextToText.from_pretrained(
    "Unkuk/k-tour-qwen3vl-8b-v2",
    device_map="auto", torch_dtype="bfloat16",
)

img = Image.open("jeju.jpg").convert("RGB")
msgs = [{"role": "user", "content": [
    {"type": "image", "image": img},
    {"type": "text",  "text": "여기 가족이랑 가볼 만한가요?"},
]}]
text = processor.apply_chat_template(msgs, add_generation_prompt=True, tokenize=False)
inputs = processor(text=[text], images=[img], return_tensors="pt").to("cuda")
out = model.generate(**inputs, max_new_tokens=256)
print(processor.batch_decode(out, skip_special_tokens=True)[0])

2.2 Example Outputs

본 모델이 실제로 생성한 응답 예시입니다. 각 이미지는 본 repo 의 images/ 폴더에 함께 저장되어 있어, Hub UI 의 카드 페이지에서 바로 미리보기 됩니다.

예시 1. 성산일출봉 (자연관광지)

sample-1

질문: 여기 가족이랑 가볼 만한가요?

모델 응답:

성산일출봉으로 보이네요. 완만한 등산로가 잘 정비되어 있어 아이와 함께 일출을 보기 좋고, 매표소에서 입장권을 사야 합니다.

[출처: 성산일출봉, 자연관광지, 서귀포시 성산읍, (33.4583, 126.9425), 4.6/5.0]

예시 2. 협재해수욕장 (해변)

sample-2

질문: 이 해변 어떤 곳인가요?

모델 응답:

협재해수욕장으로 보입니다. 에메랄드빛 바다와 비양도 풍경이 어우러진 곳으로, 모래가 곱고 수심이 얕아 가족 물놀이에 적합합니다.

[출처: 협재해수욕장, 해변, 제주시 한림읍, (33.3946, 126.2398), 4.5/5.0]

3. Training Details

데이터 규모: CPT 984 / SFT 1,312 / DPO 400
하드웨어: <TODO: RunPod L40s 48GB 등>
1 epoch 학습 시간: CPT ~20분, SFT ~35분, DPO ~35분
머지 방식: 양자화된 베이스 + LoRA → merge_and_unload() → 단일 모델로 저장
최종 크기: ~8-9GB (양자화 머지 적용 시) / ~16GB (FP16 머지)
옵티마이저(머지 전): 8-bit AdamW, lr_sft=2e-5, lr_dpo=5e-7

4. Evaluation (Day11~12 holdout 262건)

Table with columns: Metric, baseline, CPT 후, SFT 후, DPO 후
Metric	baseline	CPT 후	DPO 후
T1 mm ppl Δ% (↓ 좋음)	0.0		-54.2
T2 HAE-RAE ppl Δ% (≤+10%)	0.0		8.7
T3-format 출처 부착률 %	0	0	85.5
T3a Citation Factuality (4필드) %

5. Limitations and Biases

학습 도메인: 제주 POI 한정. 음식/문화재/숙박 카테고리 미커버
학습 언어: 한국어 응답만. 영문 페르소나 미학습
POI 환각: T3a 4필드 일치율 ~62.3% 로, 인용 라인의 사실성은 완전하지 않음
POPE-POI 부정 페어가 popular POI 로만 구성됨 — 실제 분포와 다를 수 있음

6. License & Acknowledgments

Base: Qwen/Qwen3-VL-8B-Instruct (apache-2.0)
This model: apache-2.0 (베이스 라이선스 상속)
Data: AI-HUB 제주 관광 POI 데이터 (공공데이터, 출처 표기 + 비상업)
Frameworks: 🤗 PEFT, 🤗 TRL (SFTTrainer, DPOTrainer with SimPO loss)

Available on FriendliAI

Dedicated Endpoints

Run this model inference on single tenant GPU with unmatched speed and reliability at scale.

Learn more

Container

Run this model inference with full control and performance in your environment.

Learn more

Model Details

Model Provider

Unkuk

Model Tree

Base

Qwen/Qwen3-VL-8B-Instruct

Merged

this model

Input Modalities

Text

Image

Output Modalities

Text

Supported Functionality

Dedicated Endpoints

Container

Explore FriendliAI today

Get started Talk to an engineer

README

License: apache-2.0

1. Model Description

베이스: Qwen/Qwen3-VL-8B-Instruct (apache-2.0)
학습 방식: LoRA (r=8, alpha=16, dropout=0.05, target=q/k/v/o/gate/up/down) → 단계별 학습 후 베이스에 머지 (merged 형태로 배포)
학습 단계: CPT (image+caption 984) → SFT (image+messages 1,312, 한국어 2 페르소나) → DPO/SimPO (chosen/rejected 400)
페르소나: 외국인 관광객 (한국어 응답) / 내국인 여행자 (캐주얼 한국어)
출력 형식: 본문 응답 + [출처: POI명, 카테고리, 시군구, 좌표, 평균 만족도] 라인

2. Usage

2.1 Quick Start

python
from transformers import AutoModelForImageTextToText, AutoProcessor
from PIL import Image

processor = AutoProcessor.from_pretrained("Unkuk/k-tour-qwen3vl-8b-v2")
model = AutoModelForImageTextToText.from_pretrained(
    "Unkuk/k-tour-qwen3vl-8b-v2",
    device_map="auto", torch_dtype="bfloat16",
)

img = Image.open("jeju.jpg").convert("RGB")
msgs = [{"role": "user", "content": [
    {"type": "image", "image": img},
    {"type": "text",  "text": "여기 가족이랑 가볼 만한가요?"},
]}]
text = processor.apply_chat_template(msgs, add_generation_prompt=True, tokenize=False)
inputs = processor(text=[text], images=[img], return_tensors="pt").to("cuda")
out = model.generate(**inputs, max_new_tokens=256)
print(processor.batch_decode(out, skip_special_tokens=True)[0])

2.2 Example Outputs

예시 1. 성산일출봉 (자연관광지)

sample-1

질문: 여기 가족이랑 가볼 만한가요?

모델 응답:

성산일출봉으로 보이네요. 완만한 등산로가 잘 정비되어 있어 아이와 함께 일출을 보기 좋고, 매표소에서 입장권을 사야 합니다.

[출처: 성산일출봉, 자연관광지, 서귀포시 성산읍, (33.4583, 126.9425), 4.6/5.0]

예시 2. 협재해수욕장 (해변)

sample-2

질문: 이 해변 어떤 곳인가요?

모델 응답:

협재해수욕장으로 보입니다. 에메랄드빛 바다와 비양도 풍경이 어우러진 곳으로, 모래가 곱고 수심이 얕아 가족 물놀이에 적합합니다.

[출처: 협재해수욕장, 해변, 제주시 한림읍, (33.3946, 126.2398), 4.5/5.0]

3. Training Details

데이터 규모: CPT 984 / SFT 1,312 / DPO 400
하드웨어: <TODO: RunPod L40s 48GB 등>
1 epoch 학습 시간: CPT ~20분, SFT ~35분, DPO ~35분
머지 방식: 양자화된 베이스 + LoRA → merge_and_unload() → 단일 모델로 저장
최종 크기: ~8-9GB (양자화 머지 적용 시) / ~16GB (FP16 머지)
옵티마이저(머지 전): 8-bit AdamW, lr_sft=2e-5, lr_dpo=5e-7

4. Evaluation (Day11~12 holdout 262건)

Table with columns: Metric, baseline, CPT 후, SFT 후, DPO 후
Metric	baseline	CPT 후	DPO 후
T1 mm ppl Δ% (↓ 좋음)	0.0		-54.2
T2 HAE-RAE ppl Δ% (≤+10%)	0.0		8.7
T3-format 출처 부착률 %	0	0	85.5
T3a Citation Factuality (4필드) %

5. Limitations and Biases

학습 도메인: 제주 POI 한정. 음식/문화재/숙박 카테고리 미커버
학습 언어: 한국어 응답만. 영문 페르소나 미학습
POI 환각: T3a 4필드 일치율 ~62.3% 로, 인용 라인의 사실성은 완전하지 않음
POPE-POI 부정 페어가 popular POI 로만 구성됨 — 실제 분포와 다를 수 있음

6. License & Acknowledgments

Base: Qwen/Qwen3-VL-8B-Instruct (apache-2.0)
This model: apache-2.0 (베이스 라이선스 상속)
Data: AI-HUB 제주 관광 POI 데이터 (공공데이터, 출처 표기 + 비상업)
Frameworks: 🤗 PEFT, 🤗 TRL (SFTTrainer, DPOTrainer with SimPO loss)