728x90

(blog.yakkomajuri.com)

Skald는 데이터를 제3자에게 전송하지 않고 완전히 자체 호스팅 가능한 RAG 시스템을 목표로 개발됨
RAG 구성요소는 벡터 데이터베이스, 임베딩 모델, LLM, 리랭커, 문서 파서로 나뉘며, 각 요소에 대해 오픈소스 대안을 제시
Skald의 기본 로컬 스택은 Postgres+pgvector, Sentence Transformers, Docling, 사용자 지정 LLM으로 구성
벤치마크 결과, 클라우드 기반 모델(Voyage+Claude) 은 평균 9.45점, 완전 로컬 GPT-OSS 20B는 7.10~8.63점으로 평가됨
이 접근은 데이터 프라이버시를 유지하면서도 고성능 RAG 구축이 가능함을 보여줌

RAG 구성요소와 오픈소스 대안

기본 RAG는 벡터 데이터베이스, 임베딩 모델, LLM으로 구성되며, 추가적으로 리랭커와 문서 파서가 포함될 수 있음
- 각 구성요소는 SaaS 대신 로컬 대안으로 대체 가능
예시 표에서 제시된 대안
- Vector DB: Pinecone, Weaviate Cloud → Qdrant, Weaviate, Postgres+pgvector
- Embeddings: OpenAI, Cohere → Sentence Transformers, BGE, E5
- LLM: GPT, Claude → Llama, Mistral, GPT-OSS
- Reranker: Cohere → BGE Reranker, Sentence Transformers Cross-Encoder
- Document Parsing: Reducto → Docling
Skald는 완전한 오픈소스 스택을 지향하며, 각 구성요소를 로컬에서 실행

Vector DB: Postgres + pgvector 사용
- 기존 인프라에 통합 용이하며, 수십만 문서까지 처리 가능
Vector Embeddings: 기본값은 Sentence Transformers (all-MiniLM-L6-v2)
- 영어 전용, 속도와 검색 성능 균형
- bge-m3 모델(다국어 지원)도 테스트됨
LLM: 기본 제공 없음, 사용자가 직접 실행
- 테스트에서는 GPT-OSS 20B를 EC2에서 실행
Reranker: 기본값은 Sentence Transformers Cross-Encoder, 다국어 모델로 bge-reranker-v2-m3 등도 사용 가능
Document Parsing: Docling 사용, docling-serve로 실행

전체 스택을 포함한 Skald 프로덕션 인스턴스 배포에 8분 소요
- Postgres, 임베딩·리랭킹 서비스, Docling 포함
- LLM은 별도 실행 (llama.cpp 사용)
테스트 데이터셋은 PostHog 웹사이트 콘텐츠(약 2000문서) 와 자체 제작 질의응답 세트로 구성
실험 설정
- Vector search topK=100, Reranking topK=50, Query rewriting=Off
- 평가 기준은 정확도 중심

Voyage + Claude (클라우드 구성)
- 평균 점수 9.45, 모든 답변 정확
Voyage + GPT-OSS 20B (부분 로컬)
- 평균 점수 9.18, 대부분 정확하나 일부 정보 누락
완전 로컬 + GPT-OSS 20B
- 기본 영어 모델(all-MiniLM-L6-v2 + ms-marco-MiniLM-L6-v2) : 평균 7.10
  - 영어 질의에는 정확, 다국어·모호 질의·다문서 집계에서 약점
- 다국어 모델(bge-m3 + mmarco-mMiniLMv2-L12-H384-v1) : 평균 8.63
  - 포르투갈어 질의 처리 성공, 다문서 집계 시 일부 누락
주요 한계는 여러 문서에 흩어진 정보의 통합 처리
- 클라우드 모델은 고성능으로 이를 보완하지만, 로컬 환경에서는 추가 기법 필요

728x90

로컬 RAG 시스템 구축(웹UI 구성)_SKald 프로젝트_폐쇄망_ollama (0)	2026.04.10
windows11에서 wsl 환경에 우분투24가 설치된 경우 docker (0)	2026.04.10
Streamlit 기초 (0)	2026.04.10
국가법령 MCP 서버 만들기 (0)	2026.04.10
Meta, 새 AI 모델 오픈소스 공개 예고 (0)	2026.04.10