본문 바로가기
컴퓨터 활용(한글, 오피스 등)/기타

AI |로컬에서 모델을 실행하는 6가지 최고의 LLM 툴

by 3604 2025. 12. 5.
728x90

ChatGPT 및 Claude와 같은 대규모 언어 모델(LLM : large language models)을 실행하려면 일반적으로 OpenAI 및 기타 AI 모델 제공업체에서 관리하는 서버로 데이터를 전송해야 합니다. 이러한 서비스는 안전하지만 일부 기업은 개인정보 보호를 위해 데이터를 완전히 오프라인 상태로 유지하는 것을 선호합니다.

이 문서에서는 엔드투엔드 암호화(end-to-end encryption)가 개인정보를 보호하는 방식과 유사하게 개발자가 로컬에서 LLM을 실행하고 테스트하는 데 사용할 수 있는 상위 6가지 도구에 대해 설명합니다.

Why Use Local LLMs?

로컬 LLM을 사용하는 이유는 무엇인가요?

LM Studio와 같은 도구는 로컬 LLM을 실행하는 데 사용할 때 사용자 데이터를 수집하거나 사용자의 행동을 추적하지 않습니다. 따라서 모든 채팅 데이터를 AI/ML 서버와 공유하지 않고 로컬 머신에 보관할 수 있습니다.

  • 개인정보 보호: 프롬프트 데이터가 로컬호스트를 떠나지 않고도 멀티턴 방식으로 로컬 LLM에 프롬프트할 수 있습니다.

  • 커스터마이징 옵션: 로컬 LLM은 CPU 스레드, 온도, 컨텍스트 길이, GPU 설정 등에 대한 고급 구성을 제공합니다. 이는 OpenAI의 플레이그라운드(playground)와 유사합니다.

  • 지원 및 보안: OpenAI 또는 Claude와 유사한 지원 및 보안을 제공합니다.

  • 구독 및 비용: 이러한 도구는 무료로 사용할 수 있으며 월간 구독이 필요하지 않습니다. OpenAI와 같은 클라우드 서비스의 경우 각 API 요청에 대해 비용을 지불해야 합니다. 로컬 LLM은 월별 구독이 없기 때문에 비용을 절감하는 데 도움이 됩니다.

  • 오프라인 지원: 오프라인 상태에서도 대규모 언어 모델을 로드하고 연결할 수 있습니다.

  • 연결성: OpenAI와 같은 클라우드 서비스에 연결할 때 간혹 신호 및 연결 상태가 좋지 않을 수 있습니다.

Top Six and Free Local LLM Tools

상위 6가지 무료 로컬 LLM 도구

특정 사용 사례에 따라 선택할 수 있는 오프라인 LLM 애플리케이션이 몇 가지 있습니다. 이러한 도구 중 일부는 개인 및 상업용으로 완전히 무료입니다. 다른 도구는 업무용으로 사용하려면 요청을 보내야 할 수도 있습니다. Mac, Windows 및 Linux에서 사용할 수 있는 로컬 LLM 도구가 몇 가지 있습니다. 다음은 선택할 수 있는 최고의 도구 6가지입니다.


1. LM Studio

LM Studio는 gguf 형식의 모든 모델 파일을 실행할 수 있습니다. Llama 3.1, Phi 3, Mistral 및 Gemma와 같은 모델 제공업체의 gguf 파일을 지원합니다. LM Studio를 사용하려면 위의 링크를 방문하여 사용 중인 머신에 맞는 앱을 다운로드하세요. LM Studio를 실행하면 홈페이지에 다운로드하여 테스트할 수 있는 상위 LLM이 표시됩니다. 또한 검색창을 통해 여러 AI 제공업체의 특정 모델을 필터링하고 다운로드할 수 있습니다.

특정 회사의 모델을 검색하면 소규모 모델부터 대규모 모델까지 여러 모델이 표시됩니다. LM Studio는 머신에 따라 호환성 추측을 사용하여 해당 머신 또는 플랫폼에서 작동할 모델을 강조 표시합니다.

LM Studio의 주요 기능

LM Studio는 ChatGPT와 유사한 기능 및 특징을 제공합니다. 몇 가지 기능이 있습니다. 다음은 LM Studio의 주요 기능입니다.

  • 모델 매개변수 사용자 지정: 온도, 최대 토큰, 주파수 페널티 등을 조정할 수 있습니다.

  • 채팅 내역: 나중에 사용할 수 있도록 프롬프트를 저장할 수 있습니다.

  • 매개변수 및 UI 힌트: 정보 버튼에 마우스를 가져가 모델 매개변수 및 용어를 조회할 수 있습니다.

  • 크로스 플랫폼: LM Studio는 Linux, Mac 및 Windows 운영 체제에서 사용할 수 있습니다.

  • 컴퓨터 사양 확인: LM 스튜디오는 GPU 및 메모리와 같은 컴퓨터 사양을 확인하고 호환되는 모델에 대해 보고합니다. 이렇게 하면 특정 컴퓨터에서 작동하지 않을 수 있는 모델을 다운로드하는 것을 방지할 수 있습니다.

  • AI 채팅 및 플레이그라운드: 멀티턴 채팅 형식으로 대규모 언어 모델과 채팅하고 여러 LLM을 동시에 로드하여 실험해 보세요.

  • 개발자용 로컬 추론 서버: 개발자가 OpenAI의 API와 유사한 로컬 HTTP 서버를 설정할 수 있습니다.

로컬 서버는 샘플 Curl 및 Python 클라이언트 요청을 제공합니다. 이 기능은 LM Studio를 사용하여 특정 LLM에 액세스하는 AI 애플리케이션을 빌드하는 데 도움이 됩니다.

# Example: reuse your existing OpenAI setup from openai import OpenAI # Point to the local server client = OpenAI(base_url="http://localhost:1234/v1", api_key="lm-studio") completion = client.chat.completions.create( model="TheBloke/Mistral-7B-Instruct-v0.1-GGUF", messages=[ {"role": "system", "content": "Always answer in rhymes."}, {"role": "user", "content": "Introduce yourself."} ], temperature=0.7, ) print(completion.choices[0].message)

위의 샘플 Python 코드를 사용하면 기존 OpenAI 구성을 재사용하고 로컬호스트를 가리키도록 기본 URL을 수정할 수 있습니다.

  • OpenAI의 Python 라이브러리 가져오기: LM Studio를 사용하면 개발자가 OpenAI Python 라이브러리를 가져와서 기본 URL을 로컬 서버(localhost)로 지정할 수 있습니다.

  • 다중 모델 세션: 단일 프롬프트를 사용하여 여러 모델을 선택하여 평가할 수 있습니다.

LM 스튜디오 사용의 이점

이 도구는 개인용으로 무료로 제공되며, 개발자는 인앱 채팅 UI와 플레이그라운드를 통해 LLM을 실행할 수 있습니다. 필터가 포함된 화려하고 사용하기 쉬운 인터페이스를 제공하며, API 키 없이도 OpenAI의 Python 라이브러리에 연결할 수 있도록 지원합니다. 기업과 비즈니스는 요청 시 LM 스튜디오를 사용할 수 있습니다. 단, M1/M2/M3 Mac 이상 또는 AVX2를 지원하는 프로세서가 탑재된 Windows PC가 필요합니다. 인텔 및 AMD 사용자는 0.2.31 버전에서 벌칸 추론 엔진(Vulkan inference engine)을 사용하도록 제한됩니다.

2. Jan

Jan은 오프라인에서 작동하도록 설계된 ChatGPT의 오픈소스 버전이라고 생각하시면 됩니다. 사용자 소유의 철학을 가진 사용자 커뮤니티에 의해 구축되었습니다. Jan을 사용하면 인터넷에 연결하지 않고도 미스트랄(Mistral)이나 라마(Llama)와 같은 인기 모델을 기기에서 실행할 수 있습니다. Jan을 사용하면 OpenAI 및 Groq과 같은 원격 API에 액세스할 수 있습니다.

Jan의 주요 기능

 

Jan은 LM Studio와 유사한 기능을 갖춘 전자 앱입니다. 이 앱은 일반 컴퓨터를 AI 컴퓨터로 전환하여 모든 사람이 AI를 개방하고 액세스할 수 있도록 합니다. 오픈 소스 프로젝트이므로 개발자는 누구나 기여하고 기능을 확장할 수 있습니다. 다음은 Jan의 주요 기능에 대한 분석입니다.

  • 로컬: 인터넷에 연결하지 않고도 원하는 AI 모델을 디바이스에서 실행할 수 있습니다.

  • 모델 사용 준비 완료: Jan을 다운로드하면 이미 설치된 모델 세트가 제공되어 시작할 수 있습니다. 특정 모델을 검색할 수도 있습니다.

  • 모델 가져오기: 허깅 페이스와 같은 소스에서 모델 가져오기를 지원합니다.

  • 무료, 크로스 플랫폼 및 오픈 소스: Jan은 100% 무료 오픈 소스이며 Mac, Windows, Linux에서 작동합니다.

  • 추론 매개변수 사용자 지정: 최대 토큰, 온도, 스트림, 주파수 페널티 등과 같은 모델 매개변수를 조정할 수 있습니다. 모든 기본 설정, 모델 사용 및 설정은 컴퓨터에 로컬로 유지됩니다.

  • 확장 기능: Jan은 AI 모델을 사용자 지정하고 개선하기 위해 TensortRT 및 Inference Nitro와 같은 확장 기능을 지원합니다.

Jan 사용의 이점

Jan은 LLM과 상호 작용할 수 있는 깔끔하고 간단한 인터페이스를 제공하며 모든 데이터와 처리 정보를 로컬에 보관합니다. 사용할 수 있도록 70개 이상의 대규모 언어 모델이 이미 설치되어 있습니다. 바로 사용할 수 있는 이러한 모델을 통해 OpenAI 및 Mistral과 같은 원격 API에 쉽게 연결하고 상호 작용할 수 있습니다. 또한 Jan은 훌륭한 GitHub, Discord 및 Hugging Face 커뮤니티를 통해 팔로우하고 도움을 요청할 수 있습니다. 하지만 다른 모든 LLM 도구와 마찬가지로 이 모델은 인텔 맥보다 애플 실리콘 맥에서 더 빠르게 작동합니다.

3. Llamafile

Llamafile은 네트워크 액세스 없이도 빠른 CPU 추론을 사용하여 누구나 오픈 소스 AI에 액세스할 수 있도록 지원하는 것을 목표로 하는 Mozilla의 지원을 받고 있습니다. LLM을 다중 플랫폼 실행 가능 형식(ELF)으로 변환합니다. 단 하나의 실행 파일로 LLM을 실행할 수 있도록 함으로써 AI를 애플리케이션에 통합하는 가장 좋은 옵션 중 하나를 제공합니다.

Llamafile 작동 방식

가중치를 여러 실행 가능한 프로그램으로 변환하여 Windows, MacOS, Linux, Intel, ARM, FreeBSD 등과 같은 아키텍처에서 실행하기 위해 설치가 필요 없도록 설계되었습니다. 내부적으로 Llamafile은 tinyBLAST를 사용하여 SDK 없이도 Windows와 같은 OS에서 실행할 수 있습니다.

Llamafile의 주요 기능

  • 실행 파일: LM Studio 및 Jan과 같은 다른 LLM 도구와 달리 Llamafile은 실행 파일 하나만 있으면 LLM을 실행할 수 있습니다.

  • 기존 모델 사용: Llamafile은 Ollama 및 LM Studio와 같은 기존 모델 도구 사용을 지원합니다.

  • 모델 액세스 또는 만들기: OpenAI, Mistral, Groq 등에서 인기 있는 LLM에 액세스할 수 있습니다. 또한 처음부터 모델을 만들 수 있도록 지원합니다.

  • 모델 파일 변환: 한 번의 명령으로 많은 인기 LLM의 파일 형식(예: .gguf)을 .llamafile로 변환할 수 있습니다.

llamafile-convert mistral-7b.gguf

Llamafile 시작하기

라마파일을 설치하려면 허깅페이스 웹사이트로 이동하여 탐색 메뉴에서 모델을 선택한 다음 라마파일을 검색합니다. 아래 URL에서 원하는 정량화된 버전을 설치할 수도 있습니다.

 

4. GPT4ALL

 

GPT4ALL은 개인 정보 보호, 보안 및 인터넷이 필요하지 않은 원칙을 기반으로 구축되었습니다. 맥, 윈도우, 우분투에 설치할 수 있습니다. Jan이나 LM Studio에 비해 GPT4ALL은 월간 다운로드 수, GitHub 스타 수, 활성 사용자 수가 더 많습니다.

GPT4ALL의 주요 기능

GPT4All은 Mac M 시리즈 칩, AMD 및 NVIDIA GPU와 같은 주요 소비자 하드웨어에서 LLM을 실행할 수 있습니다. 주요 기능은 다음과 같습니다.

  • 개인정보 보호 우선: 비공개 및 민감한 채팅 정보와 프롬프트는 내 컴퓨터에만 보관하세요.

  • 인터넷이 필요하지 않습니다: 완전히 오프라인에서 작동합니다.

  • 모델 탐색: 이 기능을 통해 개발자는 다양한 종류의 LLM을 검색하고 다운로드하여 실험해 볼 수 있습니다. LLama, Mistral 등과 같은 인기 있는 옵션에서 약 1,000개의 오픈 소스 언어 모델을 선택할 수 있습니다.

  • 로컬 문서: 로컬 LLM이 .pdf 및 .txt와 같은 로컬 문서로 민감한 데이터에 액세스하도록 허용하면 데이터가 장치를 떠나지 않고 네트워크 없이도 중요한 데이터에 액세스할 수 있습니다.

  • 사용자 지정 옵션: 온도, 배치 크기, 컨텍스트 길이 등과 같은 여러 가지 챗봇 조정 옵션을 제공합니다.

  • 엔터프라이즈 에디션: GPT4ALL은 보안, 지원 및 디바이스별 라이선스가 포함된 엔터프라이즈 패키지를 제공하여 비즈니스에 로컬 AI를 제공합니다.

GPT4All 시작하기

GPT4All을 사용하여 로컬에서 LLM을 실행하려면 운영 체제에 필요한 버전을 다운로드하세요.

 

GPT4ALL 사용의 이점

GPT4ALL은 Ollama를 제외하고는 경쟁사 대비 가장 많은 GitHub 기여자와 약 2500만 명의 월간 활성 사용자(https://www.nomic.ai/gpt4all 기준)를 보유하고 있습니다. 이 앱은 사용 분석 및 채팅 공유에 대한 익명의 사용자 데이터를 수집합니다. 하지만 사용자는 옵트인 또는 옵트아웃 옵션을 선택할 수 있습니다. 개발자는 GPT4ALL을 사용하여 대규모 사용자 기반, GitHub 및 Discord 커뮤니티의 이점을 누릴 수 있습니다.

5. Ollama

Ollama를 사용하면 OpenAI와 같은 API에 연결하지 않고도 로컬 챗봇을 쉽게 만들 수 있습니다. 모든 것이 로컬에서 실행되므로 구독이나 API 호출에 대한 비용을 지불할 필요가 없습니다.

Ollama의 주요 기능

  • 모델 사용자 지정: Ollama를 사용하면 .gguf 모델 파일을 변환하고 ollama run 모델명으로 실행할 수 있습니다.

  • 모델 라이브러리: Ollama에는 ollama.com/library에서 사용해 볼 수 있는 다양한 모델 컬렉션이 있습니다.

  • 모델 가져오기: 올라마는 PyTorch에서 모델 가져오기를 지원합니다.

  • 커뮤니티 통합: Ollama는 다음과 같은 웹 및 데스크톱 애플리케이션에 원활하게 통합되며, Ollama-SwiftUI, HTML UI, Dify.ai 등이 있습니다.

  • 데이터베이스 연결: 올라마는 여러 데이터 플랫폼을 지원합니다.

  • 모바일 통합: Enchanted와 같은 SwiftUI 앱은 Ollama를 iOS, macOS 및 visionOS에 제공합니다. Maid는 또한 .ggufmodel 파일과 로컬로 인터페이스하는 크로스 플랫폼 Flutter 앱입니다.

Ollama 시작하기

Ollama를 처음 사용하려면 https://ollama.com 을 방문하여 사용 중인 컴퓨터에 맞는 버전을 다운로드하세요. Mac, Linux 또는 Windows에 설치할 수 있습니다. Ollama를 설치한 후에는 터미널에서 다음 명령을 사용하여 자세한 정보를 확인할 수 있습니다.

 

위의 예에서는 llama3.1 모델에 물리 작업 및 에너지 문제를 풀라는 메시지를 표시합니다.

Ollama 사용의 이점

Ollama는 200명 이상의 기여자가 GitHub에서 활발하게 업데이트하고 있습니다. 위에서 설명한 다른 오픈소스 LLM 도구 중 가장 많은 기여자가 있으며 확장성이 뛰어납니다.

 

로컬 LLM 사용 사례

로컬에서 LLM을 실행하면 성능과 작동 방식을 자세히 이해하고자 하는 개발자에게 도움이 될 수 있습니다. 로컬 LLM은 비공개 문서와 기술 문서를 쿼리할 수 있으므로 이러한 문서에 대한 정보가 쿼리하는 데 사용된 디바이스에서 클라우드 AI API로 유출되지 않습니다. 로컬 LLM은 인터넷이 없는 곳이나 네트워크 수신 상태가 좋지 않은 곳에서 유용합니다.

원격 의료 환경에서는 로컬 LLM이 개인정보 보호 문제로 인해 AI API 제공업체에 환자 문서를 업로드하지 않고도 환자 문서를 분류할 수 있습니다.

로컬에서 실행하기 위한 LLM의 성능 평가

로컬에서 사용하기 전에 대규모 언어 모델의 성능을 파악하는 것은 필요한 응답을 얻기 위해 필수적입니다. 특정 LLM의 성능을 확인할 수 있는 방법에는 여러 가지가 있습니다. 다음은 몇 가지 방법입니다.

  • 학습: 모델이 학습되는 데이터 세트는 무엇인가요?

  • 미세 조정: 특수한 작업을 수행하도록 모델을 어느 정도까지 사용자 지정하거나 특정 도메인에 맞게 미세 조정할 수 있나요?

  • 학술 연구: LLM에 학술 연구 논문이 있나요?

위의 질문에 대한 답을 얻으려면 Hugging Face 및 Arxiv.org와 같은 훌륭한 리소스를 확인할 수 있습니다. 또한 Open LLm 리더보드와 LMSYS 챗봇 아레나에서는 다양한 LLM에 대한 자세한 정보와 벤치마크를 제공합니다.

로컬 LLM 도구 결론

이 문서에서 설명한 대로 대규모 언어 모델을 로컬에서 선택하고 사용하는 데는 몇 가지 동기가 있습니다.

인터넷을 통해 데이터 세트를 AI API 제공업체에 보내지 않으려는 경우 원격 의료 앱에서 특수한 작업을 수행하도록 모델을 미세 조정할 수 있습니다. LLm Studio나 Jan과 같은 많은 오픈 소스 그래픽 사용자 인터페이스(GUI) 기반 로컬 LLM 도구는 OpenAI나 Claude와 같은 구독 기반 서비스 없이도 LLM을 구성하고 실험할 수 있는 직관적인 프런트엔드 UI를 제공합니다. 또한 인터넷 연결 없이도 로컬에서 모델을 실행하고 테스트할 수 있도록 도와주는 Ollama 및 LLaMa.cpp와 같은 다양하고 강력한 명령줄 LLM 애플리케이션을 발견했습니다.

6. LLaMa.cpp

LLaMa.cpp는 Ollama를 비롯한 여러 로컬 LLM 도구를 구동하는 기본 백엔드 기술(추론 엔진)입니다. Llama.cpp는 최소한의 구성과 다양한 하드웨어에서 뛰어난 로컬 성능으로 상당한 규모의 언어 모델 추론을 지원합니다. 클라우드에서도 실행할 수 있습니다.

LLaMa.cpp의 주요 기능

  • 설정: 최소한의 설정이 있습니다. 한 번의 명령으로 설치할 수 있습니다.

  • 성능: 로컬 및 클라우드의 다양한 하드웨어에서 매우 우수한 성능을 발휘합니다.

  • 지원 모델: 미스트랄 7B, 믹스트랄 MoE, DBRX, 팔콘 등 인기 있고 주요한 LLM을 지원합니다.

  • 프런트엔드 AI 툴: LLaMa.cpp는 MindWorkAI/AI-Studio(FSL-1.1-MIT), iohub/collama 등과 같은 오픈 소스 LLM UI 도구를 지원합니다.

LLaMa.cpp 시작하기

첫 번째 로컬 대형 언어 모델을 llama.cpp로 실행하려면 다음과 같이 설치해야 합니다.

brew install llama.cpp

그런 다음 Hugging Face 또는 다른 소스에서 실행하려는 모델을 다운로드합니다. 예를 들어, Hugging Face에서 아래 모델을 다운로드하여 컴퓨터의 어딘가에 저장합니다.

https://huggingface.co/MaziyarPanahi/Mistral-7B-Instruct-v0.3-GGUF/resolve/main/Mistral-7B-Instruct-v0.3.Q4_K_M.gguf

터미널과 같은 선호하는 명령줄 도구를 사용하여 방금 다운로드한 .gguf 모델 파일의 위치에 cd를 넣고 다음 명령을 실행합니다.

llama-cli --color \ -m Mistral-7B-Instruct-v0.3.Q4_K_M.ggufb \ -p "Write a short intro about SwiftUI"

요약하면, 먼저 LLaMa CLI 도구를 호출하고 색상 및 기타 플래그를 설정합니다. -m 플래그는 사용하려는 모델의 경로를 지정합니다. -p 플래그는 모델에 지시하는 데 사용할 프롬프트를 지정합니다.

위 명령을 실행하면 다음 미리보기에서 결과를 확인할 수 있습니다.

 


 출처: https://blog.naver.com/kayoko79/223611013257

 

728x90