본문 바로가기
법, 용어/용어

VLM이란?

by 3604 2026. 5. 12.
728x90
반응형

최근 몇 년간 인공지능 모델은 놀라운 속도로 발전해 왔습니다. 특히 2025년 상반기에는 텍스트와 이미지를 함께 이해하고 처리할 수 있는 멀티모달 모델, 즉 VLM(Vision-Language Model) 분야에서 매우 다양한 오픈소스 모델들이 등장했습니다.

이번 글에서는 2025년 현재 기준으로 공개된 주요 오픈소스 VLM 모델들과, 각 모델이 어떤 특징을 가지고 있는지를 정리해보려고 합니다.


VLM이란?

먼저 간단히 VLM이란 무엇인지 짚고 넘어가겠습니다.

**VLM(Vision-Language Model)**은 텍스트와 이미지를 동시에 입력받아 이해하거나 생성하는 모델을 말합니다. 대표적으로 다음과 같은 기능을 수행할 수 있습니다:

  • 이미지를 보고 설명 생성하기 (Image Captioning)
  • 이미지 속 객체나 장면에 대해 질의응답 (Visual Question Answering)
  • 이미지 속 특정 영역을 지목하고 설명하기 (Referring Expression, Region Grounding)
  • 멀티모달 추론 (예: “이 사람은 어떤 감정을 느끼고 있을까?”)

기존에는 텍스트와 이미지를 별도 처리한 후 후처리를 하거나, 중간단계에서 결합했지만, 최근에는 텍스트 기반 LLM에 이미지 인코더를 통합하는 방식으로 발전하고 있습니다.

728x90

1. Qwen-VL-Chat / Qwen-VL-Instruct

  • 공개 시기: 2024년 말 ~ 2025년 초
  • 라이선스: Apache 2.0
  • 특징:
    • 다국어(Multilingual) 대응 우수, 한국어 포함
    • 입력 이미지에 대해 상세하고 추론 중심의 설명 제공
    • 다양한 태스크를 위한 Instruction 기반 대화 형식 모델 제공
  • 모델 크기: 0.5B, 1.8B, 7B 등 다양한 버전 존재
  • API/데모 제공: Hugging Face Space, Colab, Docker 기반 실행 가능

👉 장점:
한국어 이미지 설명, 이미지 QA에서 준수한 성능을 보이며, Hugging Face Transformers 구조로 쉽게 파인튜닝이 가능합니다. Vision encoder로 CLIP을 사용하며 텍스트 디코더로 LLM을 결합하는 구조입니다.

 

2. MiniGPT-4 / MiniGemini 시리즈

  • 공개: Vicuna 기반 모델을 확장하여 2023~2025까지 지속적 개선
  • 특징:
    • BLIP-2 구조 기반의 pre-trained Vision encoder 사용
    • 실제 GPT-4 수준은 아니지만, 비슷한 구조를 간단하게 재현한 경량 모델
    • 이미지 캡셔닝, 이미지 기반 대화에 최적화
  • 라이선스: MIT

👉 장점: 저사양 환경에서 테스트하기에 적합, Docker와 Gradio UI로 쉽게 실행 가능


3. LLaVA-1.5 / LLaVA-NeXT

  • LLaVA는 “Large Language and Vision Assistant”의 약자로, LLM + CLIP Vision Encoder 구조
  • 2025년에는 LLaVA-NeXT가 새롭게 등장하면서 향상된 multimodal alignment 성능을 보여줌
  • 특징:
    • OpenAI GPT-4V처럼 이미지 분석 + 추론 기반의 QA 가능
    • LLaVA-1.5는 Vicuna, LLaVA-NeXT는 Mistral 기반 등 다양한 백본 제공
  • Hugging Face에서 직접 사용할 수 있음

👉 장점: 문서 내 표/그래프를 인식하고 설명하는 기능, 의학 영상 보고서 프롬프트 설계에도 활용 가능


4. OpenFlamingo 2 / Kosmos-2

  • OpenFlamingo 2:
    • DeepMind Flamingo의 구조를 기반으로 오픈소스로 재현한 프로젝트
    • Vision encoder로 CLIP, Text encoder로 LLM 사용
    • 샘플 few-shot 이미지-텍스트 프롬프트 기반 학습 지원
  • Kosmos-2:
    • Microsoft에서 발표한 구조로, 멀티모달 reasoning에 강점
    • OCR + 이미지 이해 + 텍스트 생성이 가능한 통합 모델

👉 장점: 이들 모델은 직접 사용해보면 추론 과정이 매우 자연스럽고, 특히 multimodal reasoning 태스크에서 괜찮은 성능을 보입니다.


마치며

이 글은 현재 오픈소스로 공개된 VLM 모델들 중 2025년 기준으로 활용 가능한 모델 위주로 정리해본 내용입니다.
개인적인 실험에서는 특히 Qwen-VL-ChatLLaVA-1.5의 실용성이 좋았으며, 한국어 기반의 멀티모달 리포트 생성 태스크에도 확장성이 충분해 보였습니다.

이후 기회가 된다면, 위 모델들을 직접 파인튜닝하고 비교하는 실습 포스팅도 진행해보려고 합니다.

👉 참고로 저는 현재 Qwen-2.5-VL-Instruct 모델 기반으로 의료 영상 자동 보고서 생성 모델을 개발하고 있으며, Chain-of-Thought 기반 reasoning 구조도 함께 실험하고 있습니다.

관련 실험 내용이 궁금하시다면 다음 포스팅에서 소개드리겠습니다.
감사합니다!

반응형
 
 
 
 
 
반응형
 

최근 몇 년간 인공지능 모델은 놀라운 속도로 발전해 왔습니다. 특히 2025년 상반기에는 텍스트와 이미지를 함께 이해하고 처리할 수 있는 멀티모달 모델, 즉 VLM(Vision-Language Model) 분야에서 매우 다양한 오픈소스 모델들이 등장했습니다.

이번 글에서는 2025년 현재 기준으로 공개된 주요 오픈소스 VLM 모델들과, 각 모델이 어떤 특징을 가지고 있는지를 정리해보려고 합니다.


VLM이란?

먼저 간단히 VLM이란 무엇인지 짚고 넘어가겠습니다.

**VLM(Vision-Language Model)**은 텍스트와 이미지를 동시에 입력받아 이해하거나 생성하는 모델을 말합니다. 대표적으로 다음과 같은 기능을 수행할 수 있습니다:

  • 이미지를 보고 설명 생성하기 (Image Captioning)
  • 이미지 속 객체나 장면에 대해 질의응답 (Visual Question Answering)
  • 이미지 속 특정 영역을 지목하고 설명하기 (Referring Expression, Region Grounding)
  • 멀티모달 추론 (예: “이 사람은 어떤 감정을 느끼고 있을까?”)

기존에는 텍스트와 이미지를 별도 처리한 후 후처리를 하거나, 중간단계에서 결합했지만, 최근에는 텍스트 기반 LLM에 이미지 인코더를 통합하는 방식으로 발전하고 있습니다.

728x90
 

1. Qwen-VL-Chat / Qwen-VL-Instruct

  • 공개 시기: 2024년 말 ~ 2025년 초
  • 라이선스: Apache 2.0
  • 특징:
    • 다국어(Multilingual) 대응 우수, 한국어 포함
    • 입력 이미지에 대해 상세하고 추론 중심의 설명 제공
    • 다양한 태스크를 위한 Instruction 기반 대화 형식 모델 제공
  • 모델 크기: 0.5B, 1.8B, 7B 등 다양한 버전 존재
  • API/데모 제공: Hugging Face Space, Colab, Docker 기반 실행 가능

👉 장점:
한국어 이미지 설명, 이미지 QA에서 준수한 성능을 보이며, Hugging Face Transformers 구조로 쉽게 파인튜닝이 가능합니다. Vision encoder로 CLIP을 사용하며 텍스트 디코더로 LLM을 결합하는 구조입니다.

 

2. MiniGPT-4 / MiniGemini 시리즈

  • 공개: Vicuna 기반 모델을 확장하여 2023~2025까지 지속적 개선
  • 특징:
    • BLIP-2 구조 기반의 pre-trained Vision encoder 사용
    • 실제 GPT-4 수준은 아니지만, 비슷한 구조를 간단하게 재현한 경량 모델
    • 이미지 캡셔닝, 이미지 기반 대화에 최적화
  • 라이선스: MIT

👉 장점: 저사양 환경에서 테스트하기에 적합, Docker와 Gradio UI로 쉽게 실행 가능


3. LLaVA-1.5 / LLaVA-NeXT

  • LLaVA는 “Large Language and Vision Assistant”의 약자로, LLM + CLIP Vision Encoder 구조
  • 2025년에는 LLaVA-NeXT가 새롭게 등장하면서 향상된 multimodal alignment 성능을 보여줌
  • 특징:
    • OpenAI GPT-4V처럼 이미지 분석 + 추론 기반의 QA 가능
    • LLaVA-1.5는 Vicuna, LLaVA-NeXT는 Mistral 기반 등 다양한 백본 제공
  • Hugging Face에서 직접 사용할 수 있음

👉 장점: 문서 내 표/그래프를 인식하고 설명하는 기능, 의학 영상 보고서 프롬프트 설계에도 활용 가능


4. OpenFlamingo 2 / Kosmos-2

  • OpenFlamingo 2:
    • DeepMind Flamingo의 구조를 기반으로 오픈소스로 재현한 프로젝트
    • Vision encoder로 CLIP, Text encoder로 LLM 사용
    • 샘플 few-shot 이미지-텍스트 프롬프트 기반 학습 지원
  • Kosmos-2:
    • Microsoft에서 발표한 구조로, 멀티모달 reasoning에 강점
    • OCR + 이미지 이해 + 텍스트 생성이 가능한 통합 모델

👉 장점: 이들 모델은 직접 사용해보면 추론 과정이 매우 자연스럽고, 특히 multimodal reasoning 태스크에서 괜찮은 성능을 보입니다.


마치며

이 글은 현재 오픈소스로 공개된 VLM 모델들 중 2025년 기준으로 활용 가능한 모델 위주로 정리해본 내용입니다.
개인적인 실험에서는 특히 Qwen-VL-ChatLLaVA-1.5의 실용성이 좋았으며, 한국어 기반의 멀티모달 리포트 생성 태스크에도 확장성이 충분해 보였습니다.

이후 기회가 된다면, 위 모델들을 직접 파인튜닝하고 비교하는 실습 포스팅도 진행해보려고 합니다.

👉 참고로 저는 현재 Qwen-2.5-VL-Instruct 모델 기반으로 의료 영상 자동 보고서 생성 모델을 개발하고 있으며, Chain-of-Thought 기반 reasoning 구조도 함께 실험하고 있습니다.

관련 실험 내용이 궁금하시다면 다음 포스팅에서 소개드리겠습니다.

출처: https://naakjii.tistory.com/141 [NJSUNG BLOG:티스토리]

728x90

'법, 용어 > 용어' 카테고리의 다른 글

AI 헤르메스 에이전트 Hermes Agent  (0) 2026.05.13
Node.js 란  (0) 2026.05.11
ML/AI 엔지니어링 작업 세부 단계  (0) 2026.05.11
LRU (Least Recently Used) 알고리즘  (0) 2026.05.07
벡터  (0) 2026.05.06