VLM이란?

728x90

VLM이란?
1. Qwen-VL-Chat / Qwen-VL-Instruct
2. MiniGPT-4 / MiniGemini 시리즈
3. LLaVA-1.5 / LLaVA-NeXT
4. OpenFlamingo 2 / Kosmos-2
마치며

반응형

최근 몇 년간 인공지능 모델은 놀라운 속도로 발전해 왔습니다. 특히 2025년 상반기에는 텍스트와 이미지를 함께 이해하고 처리할 수 있는 멀티모달 모델, 즉 VLM(Vision-Language Model) 분야에서 매우 다양한 오픈소스 모델들이 등장했습니다.

이번 글에서는 2025년 현재 기준으로 공개된 주요 오픈소스 VLM 모델들과, 각 모델이 어떤 특징을 가지고 있는지를 정리해보려고 합니다.

VLM이란?

먼저 간단히 VLM이란 무엇인지 짚고 넘어가겠습니다.

**VLM(Vision-Language Model)**은 텍스트와 이미지를 동시에 입력받아 이해하거나 생성하는 모델을 말합니다. 대표적으로 다음과 같은 기능을 수행할 수 있습니다:

이미지를 보고 설명 생성하기 (Image Captioning)
이미지 속 객체나 장면에 대해 질의응답 (Visual Question Answering)
이미지 속 특정 영역을 지목하고 설명하기 (Referring Expression, Region Grounding)
멀티모달 추론 (예: “이 사람은 어떤 감정을 느끼고 있을까?”)

기존에는 텍스트와 이미지를 별도 처리한 후 후처리를 하거나, 중간단계에서 결합했지만, 최근에는 텍스트 기반 LLM에 이미지 인코더를 통합하는 방식으로 발전하고 있습니다.

728x90

1. Qwen-VL-Chat / Qwen-VL-Instruct

공개 시기: 2024년 말 ~ 2025년 초
라이선스: Apache 2.0
특징:
- 다국어(Multilingual) 대응 우수, 한국어 포함
- 입력 이미지에 대해 상세하고 추론 중심의 설명 제공
- 다양한 태스크를 위한 Instruction 기반 대화 형식 모델 제공
모델 크기: 0.5B, 1.8B, 7B 등 다양한 버전 존재
API/데모 제공: Hugging Face Space, Colab, Docker 기반 실행 가능

👉 장점:
한국어 이미지 설명, 이미지 QA에서 준수한 성능을 보이며, Hugging Face Transformers 구조로 쉽게 파인튜닝이 가능합니다. Vision encoder로 CLIP을 사용하며 텍스트 디코더로 LLM을 결합하는 구조입니다.

2. MiniGPT-4 / MiniGemini 시리즈

공개: Vicuna 기반 모델을 확장하여 2023~2025까지 지속적 개선
특징:
- BLIP-2 구조 기반의 pre-trained Vision encoder 사용
- 실제 GPT-4 수준은 아니지만, 비슷한 구조를 간단하게 재현한 경량 모델
- 이미지 캡셔닝, 이미지 기반 대화에 최적화
라이선스: MIT

👉 장점: 저사양 환경에서 테스트하기에 적합, Docker와 Gradio UI로 쉽게 실행 가능

3. LLaVA-1.5 / LLaVA-NeXT

LLaVA는 “Large Language and Vision Assistant”의 약자로, LLM + CLIP Vision Encoder 구조
2025년에는 LLaVA-NeXT가 새롭게 등장하면서 향상된 multimodal alignment 성능을 보여줌
특징:
- OpenAI GPT-4V처럼 이미지 분석 + 추론 기반의 QA 가능
- LLaVA-1.5는 Vicuna, LLaVA-NeXT는 Mistral 기반 등 다양한 백본 제공
Hugging Face에서 직접 사용할 수 있음

👉 장점: 문서 내 표/그래프를 인식하고 설명하는 기능, 의학 영상 보고서 프롬프트 설계에도 활용 가능

4. OpenFlamingo 2 / Kosmos-2

OpenFlamingo 2:
- DeepMind Flamingo의 구조를 기반으로 오픈소스로 재현한 프로젝트
- Vision encoder로 CLIP, Text encoder로 LLM 사용
- 샘플 few-shot 이미지-텍스트 프롬프트 기반 학습 지원
Kosmos-2:
- Microsoft에서 발표한 구조로, 멀티모달 reasoning에 강점
- OCR + 이미지 이해 + 텍스트 생성이 가능한 통합 모델

👉 장점: 이들 모델은 직접 사용해보면 추론 과정이 매우 자연스럽고, 특히 multimodal reasoning 태스크에서 괜찮은 성능을 보입니다.

마치며

이 글은 현재 오픈소스로 공개된 VLM 모델들 중 2025년 기준으로 활용 가능한 모델 위주로 정리해본 내용입니다.
개인적인 실험에서는 특히 Qwen-VL-Chat과 LLaVA-1.5의 실용성이 좋았으며, 한국어 기반의 멀티모달 리포트 생성 태스크에도 확장성이 충분해 보였습니다.

이후 기회가 된다면, 위 모델들을 직접 파인튜닝하고 비교하는 실습 포스팅도 진행해보려고 합니다.

👉 참고로 저는 현재 Qwen-2.5-VL-Instruct 모델 기반으로 의료 영상 자동 보고서 생성 모델을 개발하고 있으며, Chain-of-Thought 기반 reasoning 구조도 함께 실험하고 있습니다.

관련 실험 내용이 궁금하시다면 다음 포스팅에서 소개드리겠습니다.
감사합니다!

반응형

저작자표시 (새창열림)

'개발 > AI' 카테고리의 다른 글

[NeurIPS 2025] 인공지능 트렌드를 바꿀 핵심 연구 논문 Best 3 정리 (RL, Vision, GenAI) (0)	2025.12.22
🩺 MedGemma3: 구글이 만든 의료 멀티모달 모델의 진화 (1)	2025.05.26
[정리] 2025년 이후 멀티모달 인공지능의 발전 (0)	2025.05.09
헬스케어 질의 응답이 가능한 sLLM 파인튜닝하기 (2)	2024.10.17
Llama-3.2-1B-Instruction 모델 파인튜닝하기 (6)	2024.10.02

반응형

이번 글에서는 2025년 현재 기준으로 공개된 주요 오픈소스 VLM 모델들과, 각 모델이 어떤 특징을 가지고 있는지를 정리해보려고 합니다.

VLM이란?

먼저 간단히 VLM이란 무엇인지 짚고 넘어가겠습니다.

이미지를 보고 설명 생성하기 (Image Captioning)
이미지 속 객체나 장면에 대해 질의응답 (Visual Question Answering)
이미지 속 특정 영역을 지목하고 설명하기 (Referring Expression, Region Grounding)
멀티모달 추론 (예: “이 사람은 어떤 감정을 느끼고 있을까?”)

728x90

1. Qwen-VL-Chat / Qwen-VL-Instruct

공개 시기: 2024년 말 ~ 2025년 초
라이선스: Apache 2.0
특징:
- 다국어(Multilingual) 대응 우수, 한국어 포함
- 입력 이미지에 대해 상세하고 추론 중심의 설명 제공
- 다양한 태스크를 위한 Instruction 기반 대화 형식 모델 제공
모델 크기: 0.5B, 1.8B, 7B 등 다양한 버전 존재
API/데모 제공: Hugging Face Space, Colab, Docker 기반 실행 가능

2. MiniGPT-4 / MiniGemini 시리즈

공개: Vicuna 기반 모델을 확장하여 2023~2025까지 지속적 개선
특징:
- BLIP-2 구조 기반의 pre-trained Vision encoder 사용
- 실제 GPT-4 수준은 아니지만, 비슷한 구조를 간단하게 재현한 경량 모델
- 이미지 캡셔닝, 이미지 기반 대화에 최적화
라이선스: MIT

👉 장점: 저사양 환경에서 테스트하기에 적합, Docker와 Gradio UI로 쉽게 실행 가능

3. LLaVA-1.5 / LLaVA-NeXT

LLaVA는 “Large Language and Vision Assistant”의 약자로, LLM + CLIP Vision Encoder 구조
2025년에는 LLaVA-NeXT가 새롭게 등장하면서 향상된 multimodal alignment 성능을 보여줌
특징:
- OpenAI GPT-4V처럼 이미지 분석 + 추론 기반의 QA 가능
- LLaVA-1.5는 Vicuna, LLaVA-NeXT는 Mistral 기반 등 다양한 백본 제공
Hugging Face에서 직접 사용할 수 있음

👉 장점: 문서 내 표/그래프를 인식하고 설명하는 기능, 의학 영상 보고서 프롬프트 설계에도 활용 가능

4. OpenFlamingo 2 / Kosmos-2

OpenFlamingo 2:
- DeepMind Flamingo의 구조를 기반으로 오픈소스로 재현한 프로젝트
- Vision encoder로 CLIP, Text encoder로 LLM 사용
- 샘플 few-shot 이미지-텍스트 프롬프트 기반 학습 지원
Kosmos-2:
- Microsoft에서 발표한 구조로, 멀티모달 reasoning에 강점
- OCR + 이미지 이해 + 텍스트 생성이 가능한 통합 모델

👉 장점: 이들 모델은 직접 사용해보면 추론 과정이 매우 자연스럽고, 특히 multimodal reasoning 태스크에서 괜찮은 성능을 보입니다.

마치며

이후 기회가 된다면, 위 모델들을 직접 파인튜닝하고 비교하는 실습 포스팅도 진행해보려고 합니다.

관련 실험 내용이 궁금하시다면 다음 포스팅에서 소개드리겠습니다.

출처: https://naakjii.tistory.com/141 [NJSUNG BLOG:티스토리]

728x90

저작자표시 비영리 변경금지 (새창열림)

'법, 용어 > 용어' 카테고리의 다른 글

AI 헤르메스 에이전트 Hermes Agent (0)	2026.05.13
Node.js 란 (0)	2026.05.11
ML/AI 엔지니어링 작업 세부 단계 (0)	2026.05.11
LRU (Least Recently Used) 알고리즘 (0)	2026.05.07
벡터 (0)	2026.05.06

BKU 소프트웨어

VLM이란?

VLM이란?

1. Qwen-VL-Chat / Qwen-VL-Instruct

2. MiniGPT-4 / MiniGemini 시리즈

3. LLaVA-1.5 / LLaVA-NeXT

4. OpenFlamingo 2 / Kosmos-2

마치며

'개발 > AI' 카테고리의 다른 글

VLM이란?

1. Qwen-VL-Chat / Qwen-VL-Instruct

2. MiniGPT-4 / MiniGemini 시리즈

3. LLaVA-1.5 / LLaVA-NeXT

4. OpenFlamingo 2 / Kosmos-2

마치며

'법, 용어 > 용어' 카테고리의 다른 글

티스토리툴바

VLM이란?

'개발 > AI' 카테고리의 다른 글

'법, 용어 > 용어' 카테고리의 다른 글

관련글

티스토리툴바