로컬 AI 위한 하드웨어 구축 가이드

728x90

출처: https://quasarzone.com/bbs/qn_hardware/views/1711856

머신에서 로컬로 AI를 사용해 볼 준비가 되셨나요? 새로운 개방형 모델에 대한 모든 소란이 무엇인지 알고 싶거나, 큰 결정을 내리기 전에 AI를 앱이나 비즈니스에 통합하는 방법을 탐색하고 싶다면 이 가이드가 시작에 도움이 될 것입니다. AI PC, NPU, GPU, TOPS 및 FLOPS를 둘러싼 모든 마케팅으로 인해 어떤 요소가 중요하고 어떤 요소가 과장된 것인지 이해하려고 노력하다 보면 길을 잃기 쉽습니다. 이 가이드에서는 몇 가지 일반적인 오해를 살펴보고 가정에서 AI를 배포할 때 실제로 어떤 사양이 중요한지 알아보겠습니다.

기대치 설정
로컬에서 AI 모델을 실행하는 데 필요한 하드웨어의 종류는 정확히 무엇을 달성하고자 하는지에 따라 크게 달라집니다. 집에서 맞춤형 모델을 학습시키고 싶지만 현실적으로 불가능합니다. 일반 소비자가 처리할 수 있는 생성형 AI 워크로드 유형은 일반적으로 이미지 생성이나 챗봇, 요약 엔진 또는 코드 어시스턴트와 같은 대규모 언어 모델(LLM) 기반 서비스의 두 가지 범주 중 하나에 속합니다.

여기에도 몇 가지 실질적인 제한이 있습니다. 700억 개의 매개변수 모델을 실행하려면 여러 개의 하이엔드 그래픽 카드를 갖춘 다소 강력한 시스템이 필요합니다. 하지만 80억 개의 매개변수 모델 정도는 비교적 최신 노트북이나 보급형 GPU로도 충분히 실행할 수 있습니다. 미세 조정이나 여러 모델의 기능을 결합하는 애플리케이션 개발과 같은 고급 AI 사용 사례에 관심이 있다면 워크스테이션이나 서버급 하드웨어를 고려해야 할 수도 있습니다.

실제로 중요한 사양
이에 따라 기대치를 설정한 상태에서 가정에서 생성형 AI 모델을 실행할 때 가장 큰 차이를 만드는 사양에 대해 자세히 알아보세요:

1. 메모리/vRAM 용량
의심할 여지 없이 가장 중요한 통계는 메모리 용량, 특히 전용 그래픽이 있는 시스템을 찾는 경우 GPU vRAM입니다. 실행하려는 AI 모델의 종류에 관계없이 모두 많은 공간을 차지하므로 최상의 성능을 위해 메모리에 로드해야 합니다. 필요한 메모리의 양은 실행하려는 모델의 크기, 학습된 정밀도, 정량화 가능 여부에 따라 달라집니다. 오늘날 대부분의 AI 모델은 16비트 정밀도로 학습되므로 10억 개의 매개변수마다 약 2GB의 메모리가 필요합니다.

물론 이는 매우 제한적이기 때문에 로컬에서 실행하기 쉽도록 모델을 8비트 또는 4비트 정수 형식으로 정량화하는 것이 일반적입니다. 4비트 정밀도에서는 10억 개의 매개변수마다 0.5기가의 메모리만 필요합니다. 일반적으로 메모리가 많을수록 더 큰 모델을 실행할 때 더 많은 유연성을 확보할 수 있습니다.

2. 메모리 대역폭
메모리 유형과 속도도 매우 중요합니다. GPU, NPU 또는 CPU가 처리할 수 있는 TOPS의 수가 AI 모델의 실행 속도를 결정한다고 생각할 수 있지만 항상 그런 것은 아닙니다. LLM의 경우 응답을 얼마나 빨리 뱉어내는지는 부동 소수점이나 정수 성능보다 메모리의 속도와 더 큰 관련이 있습니다. 실제로 총 메모리 대역폭을 모델의 크기(기가바이트)로 나누면 특정 시스템에서 최대 처리량을 대략적으로 추정할 수 있습니다.

예를 들어 메모리 대역폭이 960GB/s인 GPU를 사용하는 경우 80억 개의 매개변수 모델을 FP16에서 실행할 때 최고 성능은 초당 약 60토큰입니다. 실제로는 키 값 캐시로 인해 약간의 오버헤드가 추가되지만, 적어도 빠른 메모리가 얼마나 중요한지 알 수 있습니다. 이것이 바로 CPU나 통합 그래픽에서 LLM을 실행하는 것이 일반적으로 매우 느린 이유입니다. 대부분의 소비자 플랫폼은 128비트 메모리 버스로 제한되어 있습니다. 따라서 7,200MT/s의 빠른 DDR5를 대량으로 장착하더라도 최대 관리 가능한 속도는 112GB/s 정도입니다. 애플의 고급형 M 시리즈 맥과 같은 일부 시스템에서는 더 넓은 메모리 버스(M2 울트라의 경우 최대 1024비트)가 제공되므로 800GB/s의 대역폭을 달성할 수 있습니다.

이 때문에 일반적으로 전용 GPU가 LLM에 사용됩니다. 하지만 최신 그래픽 카드가 항상 더 나은 것은 아니므로 주의해야 합니다. 엔비디아의 RTX 4060은 구형 RTX 3060보다 메모리가 적을 뿐만 아니라 128비트 메모리 버스가 더 좁기 때문에 그 대표적인 예입니다. 확실하지 않은 경우, 생성형 AI용 GPU를 선택할 때 TechPowerUp의 GPU 데이터베이스와 같은 리소스가 매우 유용할 수 있습니다.

3. TOPS와 FLOPS
프로세서의 정수 및 부동 소수점 성능은 각각 TOPS와 테라플롭스로 측정되며, 여전히 고려할 가치가 있습니다. LLM 추론은 대부분 메모리에 구속되지만 프롬프트를 처리하는 것은 여전히 컴퓨팅 집약적인 작업입니다. 시스템에서 푸시할 수 있는 TOPS 또는 FLOPS가 많을수록 응답을 생성하는 데 걸리는 시간이 짧아집니다. 이는 일반적으로 짧은 쿼리에서는 그다지 분명하지 않지만 요약 작업과 같이 긴 프롬프트의 경우 컴퓨팅 능력이 부족하면 지연이 상당히 두드러질 수 있습니다. 부동 소수점 및 정수 성능은 이미지 생성 모델과 같은 다른 종류의 AI를 살펴볼 때 훨씬 더 중요합니다. LLM에 비해 스테이블 디퓨전이나 Black Forest Lab의 Flux.1 Dev와 같은 모델은 계산 집약적인 경향이 있습니다.

51.2테라플롭스의 고밀도 FP16 성능을 자랑하는 RTX 3060과 364.2테라플롭스의 스테이블 디퓨전 XL을 지원하는 RTX 6000 Ada 세대 카드를 비교하면 당연히 더 빠른 카드가 이미지를 더 빨리 생성할 것입니다. 그러나 해당 성능을 달성하는 정밀도가 항상 명확하지 않고 모든 칩이 동일한 데이터 유형을 지원하는 것은 아니므로 공급업체 간 TOPS 및 FLOPS를 비교하는 것은 다소 까다로울 수 있습니다. 현재 엔비디아의 40 시리즈 GPU는 8비트 부동 소수점 계산을 지원하지만 AMD의 RDNA 3 기반 가속기는 지원하지 않습니다.

모든 모델이 FP8 지원을 활용할 수 있는 것은 아니므로 FLOPS 수치가 반드시 더 높은 성능을 의미하지는 않습니다. 또 한 가지 주의해야 할 점은 주어진 수치가 스파스 연산용인지, 고밀도 연산용인지 여부입니다. 예를 들어 엔비디아는 스파스 성능을 광고하는 것을 좋아하지만 AMD와 인텔은 전통적으로 고밀도 성능 수치를 선호해 왔습니다. 이는 단순한 철학의 차이가 아니라 어떤 워크로드는 희소성을 활용할 수 있는 반면 어떤 워크로드는 그렇지 못하기 때문입니다. 따라서 TOPS 또는 FLOPS 광고 수치를 볼 때마다 "어느 정도의 정밀도로?"라는 질문을 먼저 해야 합니다.

사양이 모든 것을 말해주지 않습니다.
TOPS, 메모리 대역폭 및 용량은 모두 실행 가능한 모델과 성능에 영향을 미치지만 반드시 모든 것을 알려주지는 않습니다. AI 프레임워크가 엔비디아 GPU에서 실행된다고 해서 인텔이나 AMD 카드에서 작동한다는 의미는 아니며, 작동하더라도 최적으로 실행되지 않을 수도 있습니다. Llama.cpp 프로젝트를 기반으로 하며 거의 모든 장치에서 실행되는 인기 있는 LLM 선두 주자인 LM 스튜디오를 살펴보면 이를 설명할 수 있습니다.

이러한 폭넓은 호환성의 단점은 모든 GPU가 즉시 최상의 성능을 발휘하지는 않는다는 것입니다. LM 스튜디오는 기본적으로 쿠다와 애플의 메탈 API에서 실행되지만, 인텔 및 AMD GPU의 경우 불칸 컴퓨팅 백엔드를 사용합니다. 따라서 아크 및 라데온 카드에서 LM 스튜디오의 성능은 SYCL 또는 ROCm에서 기본적으로 실행되는 경우만큼 좋지 않습니다. 다행히도 두 가지 모두에 대한 지원이 이미 Llama.cpp에 존재하며 호환되는 7000 시리즈 카드가 있다면 ROCm을 지원하는 LM 스튜디오의 실험적 빌드를 사용할 수 있다는 점이 좋습니다.

로컬 AI 소프트웨어 에코시스템 현황
이 글을 쓰는 시점에서 가장 광범위한 소프트웨어 호환성을 원한다면, 엔비디아 하드웨어가 가장 안전한 선택입니다. 엔비디아의 CUDA 소프트웨어 라이브러리는 15년 이상 사용되어 왔기 때문입니다. 하지만 AMD의 ROCm 및 HIP 스택은 아직 엔비디아의 쿠다만큼 성숙하지는 않지만 작년 말 RDNA 3(7000 시리즈) 그래픽 카드 지원이 추가되면서 매우 빠르게 개선되고 있습니다. 테스트 결과, 적어도 리눅스에서는 Ollama 및 Llama.cpp에서 스테이블 디퓨전 또는 LLM을 실행하는 데 아무런 문제가 없었습니다.

인텔의 아크 그래픽도 비슷한 상황입니다. 테스트 결과, 소프트웨어 기능은 현재로서는 AMD나 엔비디아만큼 성숙하지 않았습니다. 많은 인기 서비스가 이러한 카드에서 작동하도록 만들 수 있지만, 배포가 항상 간단한 것은 아니라는 사실을 발견했습니다. 곧 출시될 PyTorch에 대한 기본 지원으로 이러한 문제가 일부 해결될 것으로 기대합니다. 이미 아크 GPU를 보유하고 있거나 구매를 고려 중인 경우, 인텔은 최근 기능 면에서 상당히 제한적이지만 윈도우에서 디퓨전 모델과 LLM을 모두 쉽게 구현할 수 있는 AI 플레이그라운드를 출시했습니다. 하지만 로컬 AI를 둘러싼 소프트웨어 생태계는 매우 빠르게 진화하고 있으므로 이 글이 게시된 지 몇 달이 지난 후에도 읽고 있다면 상황이 달라졌을 가능성이 높습니다.

NPU는 어떤가요?
마이크로소프트와 주요 칩 제조업체가 신경 처리 엔진(NPU)에 대해 떠들썩하게 떠들었지만, 실제로 가정에서 AI 모델을 실행하는 데는 신경 처리 엔진이 필요하지 않습니다. 이러한 전용 가속기는 상대적으로 적은 양의 전력을 소비하면서 많은 TOPS를 처리하도록 설계되었습니다. 하지만 몇몇 앱과 마이크로소프트의 코파일럿+ 기능 외에는 아직 잘 지원되지 않습니다. 가장 먼저 도입되는 분야 중 하나는 이미지 생성이므로 주로 스테이블 디퓨전을 실행하는 데 관심이 있다면 살펴볼 가치가 있습니다.

데스크톱 시스템을 사용하는 경우 프로세서에 NPU가 탑재되어 있지 않을 수도 있습니다. 요컨대, NPU가 있다고 해서 나쁘지는 않지만, 시스템에 NPU가 없다고 해서 걱정할 필요는 없습니다. 현재 대부분의 AI 소프트웨어는 여전히 GPU 컴퓨팅에 최적화되어 있습니다

※ 퀘이사존 공식 기사가 아닌 해외 뉴스/기사를 번역한 것으로, 퀘이사존 견해와 주관은 포함되어 있지 않습니다.

728x90

저작자표시 비영리 변경금지

'프로그램 활용 > 인공지능(AI)' 카테고리의 다른 글

Generative model vs Discriminative model (생성 모델과 판별 모델) (0)	2025.04.01
싱글모달과 멀티모달의 차이점과 방향성 (0)	2025.03.28
AI 사이트 (0)	2025.03.28
AI 회사 (0)	2025.03.27
AI 도입 및 적용을 위한 준비 작업 (0)	2025.03.26

BKU 소프트웨어

로컬 AI 위한 하드웨어 구축 가이드

'프로그램 활용 > 인공지능(AI)' 카테고리의 다른 글

티스토리툴바

로컬 AI 위한 하드웨어 구축 가이드

'프로그램 활용 > 인공지능(AI)' 카테고리의 다른 글

관련글

티스토리툴바