본문 바로가기
컴퓨터 활용(한글, 오피스 등)/기타

로컬 RAG를 구축하고 싶으신가요?

by 3604 2026. 4. 10.
728x90

 (blog.yakkomajuri.com)

37P by GN⁺ 4달전 | ★ favorite | 댓글 7개
  • Skald는 데이터를 제3자에게 전송하지 않고 완전히 자체 호스팅 가능한 RAG 시스템을 목표로 개발됨
  • RAG 구성요소는 벡터 데이터베이스, 임베딩 모델, LLM, 리랭커, 문서 파서로 나뉘며, 각 요소에 대해 오픈소스 대안을 제시
  • Skald의 기본 로컬 스택은 Postgres+pgvector, Sentence Transformers, Docling, 사용자 지정 LLM으로 구성
  • 벤치마크 결과, 클라우드 기반 모델(Voyage+Claude) 은 평균 9.45점, 완전 로컬 GPT-OSS 20B는 7.10~8.63점으로 평가됨
  • 이 접근은 데이터 프라이버시를 유지하면서도 고성능 RAG 구축이 가능함을 보여줌

RAG 구성요소와 오픈소스 대안

  • 기본 RAG는 벡터 데이터베이스, 임베딩 모델, LLM으로 구성되며, 추가적으로 리랭커와 문서 파서가 포함될 수 있음
    • 각 구성요소는 SaaS 대신 로컬 대안으로 대체 가능
  • 예시 표에서 제시된 대안
    • Vector DB: Pinecone, Weaviate Cloud → Qdrant, Weaviate, Postgres+pgvector
    • Embeddings: OpenAI, Cohere → Sentence Transformers, BGE, E5
    • LLM: GPT, Claude → Llama, Mistral, GPT-OSS
    • Reranker: Cohere → BGE Reranker, Sentence Transformers Cross-Encoder
    • Document Parsing: Reducto → Docling
  • Skald는 완전한 오픈소스 스택을 지향하며, 각 구성요소를 로컬에서 실행

Skald의 로컬 스택 구성

  • Vector DB: Postgres + pgvector 사용
    • 기존 인프라에 통합 용이하며, 수십만 문서까지 처리 가능
  • Vector Embeddings: 기본값은 Sentence Transformers (all-MiniLM-L6-v2)
    • 영어 전용, 속도와 검색 성능 균형
    • bge-m3 모델(다국어 지원)도 테스트됨
  • LLM: 기본 제공 없음, 사용자가 직접 실행
    • 테스트에서는 GPT-OSS 20B를 EC2에서 실행
  • Reranker: 기본값은 Sentence Transformers Cross-Encoder, 다국어 모델로 bge-reranker-v2-m3 등도 사용 가능
  • Document Parsing: Docling 사용, docling-serve로 실행

성능 및 배포 결과

  • 전체 스택을 포함한 Skald 프로덕션 인스턴스 배포에 8분 소요
    • Postgres, 임베딩·리랭킹 서비스, Docling 포함
    • LLM은 별도 실행 (llama.cpp 사용)
  • 테스트 데이터셋은 PostHog 웹사이트 콘텐츠(약 2000문서) 와 자체 제작 질의응답 세트로 구성
  • 실험 설정
    • Vector search topK=100, Reranking topK=50, Query rewriting=Off
    • 평가 기준은 정확도 중심

벤치마크 결과 비교

  • Voyage + Claude (클라우드 구성)
    • 평균 점수 9.45, 모든 답변 정확
  • Voyage + GPT-OSS 20B (부분 로컬)
    • 평균 점수 9.18, 대부분 정확하나 일부 정보 누락
  • 완전 로컬 + GPT-OSS 20B
    • 기본 영어 모델(all-MiniLM-L6-v2 + ms-marco-MiniLM-L6-v2) : 평균 7.10
      • 영어 질의에는 정확, 다국어·모호 질의·다문서 집계에서 약점
    • 다국어 모델(bge-m3 + mmarco-mMiniLMv2-L12-H384-v1) : 평균 8.63
      • 포르투갈어 질의 처리 성공, 다문서 집계 시 일부 누락
  • 주요 한계는 여러 문서에 흩어진 정보의 통합 처리
    • 클라우드 모델은 고성능으로 이를 보완하지만, 로컬 환경에서는 추가 기법 필요

향후 계획

  • Skald는 로컬 RAG 성능 향상 및 오픈소스 모델 벤치마크 공개를 계획
  • 에어갭 환경에서 AI 도구를 운영해야 하는 기업을 위한 솔루션 제공 목표
  • 참여 희망자는 GitHub(skaldlabs/skald) 또는 Slack 커뮤니티를 통해 협업 가능
728x90