본문 바로가기
컴퓨터 활용(한글, 오피스 등)/기타

ai llm 모델 기능별 부품들을 설명해줘

by 3604 2026. 3. 31.
728x90

AI LLM(거대언어모델) 구동하기 위한 하드웨어 생태계는 단순히 '계산기' '메모리' 관계를 넘어, 데이터의 크기와 이동 속도 최적화하기 위한 복잡한 계층 구조로 이루어져 있습니다.

부품의 역할과 데이터 흐름을 기능별로 정리해 드립니다.


1. 연산 장치: AI '두뇌' (CPU, GPU, NPU)

데이터를 실제로 계산하고 논리적인 판단을 내리는 부품들입니다.

·        CPU (Central Processing Unit): 전체 시스템의 **'관리자'**입니다. OS 구동하고 메모리 간의 데이터 전송을 제어하며, 복잡한 조건문 처리를 담당합니다. 하지만 병렬 연산 속도가 느려 직접적인 LLM 추론 비중은 낮습니다.

·        GPU (Graphics Processing Unit): 현재 AI **'표준'**입니다. 수만 개의 코어가 동시에 행렬 연산을 수행하여 LLM 학습과 추론에 가장 최적화되어 있습니다. 범용성이 높아 어떤 AI 모델도 돌릴 있습니다.

·        NPU (Neural Processing Unit): AI 연산만을 위해 설계된 **'특화 프로세서'**입니다. 불필요한 기능을 제거하고 딥러닝에 필요한 가산기/승산기 위주로 구성되어, 특정 모델(추론 )에서 GPU보다 전력 효율이 월등히 좋습니다.


2. 메모리 계층: AI '작업대' (HBM, SDRAM, LPDDR)

연산 장치가 계산할 파라미터(매개변수) 얼마나 빨리, 많이 공급하느냐를 결정합니다.

·        HBM (High Bandwidth Memory): GPU 바로 옆에 붙는 **'초고속 작업대'**입니다. LLM 수천억 개의 파라미터를 초당 수십 번씩 읽어야 하는데, HBM 압도적인 대역폭($TB/s$ 단위) 없으면 GPU 노는 시간(Idle) 발생합니다.

·        SDRAM (DDR5 / LPDDR5x): PC 모바일의 **'메인 작업대'**입니다. HBM보다 느리지만 가격이 저렴하고 용량 확장이 쉽습니다. 온디바이스 AI에서는 LPDDR 전력을 아끼며 모델의 일부를 저장하는 역할을 합니다.

·        CXL (Compute Express Link) DRAM: 차세대 기술로, 여러 대의 서버가 메모리를 공유하거나 용량을 무한대에 가깝게 확장할 있게 해주는 **'공용 작업대'**입니다.


3. 저장 고속 공급 장치: AI '창고' (HBF, HBS, SSD)

휘발성 메모리가 담지 못하는 거대한 데이터를 영구 저장하고 필요할 빠르게 밀어줍니다.

·        HBF (High Bandwidth Flash): NAND 플래시 기반이지만 대역폭을 획기적으로 높인 **'차세대 도서관'**입니다. LLM 수조 파라미터를 비휘발성으로 저장해 두었다가, 전원을 켜자마자 DRAM 수준의 속도로 연산 장치에 공급하려는 목적을 가집니다.

·        HBS (High Bandwidth Storage): 시스템 전체의 병목을 해결하기 위한 **'초고속 물류 시스템'**입니다. 저장 장치 내부에 연산 기능을 넣거나(Computational Storage), CPU 거치지 않고 직접 GPU 데이터를 쏘는 기술 등을 포함합니다.

·        NVMe SSD: 전통적인 **'대형 창고'**입니다. 학습용 데이터셋(말뭉치 ) 저장하며, 최근에는 GPU 직접 통신하는 GPUDirect Storage 기술을 통해 전송 효율을 높이고 있습니다.


4. LLM 구동 데이터 흐름 예시 (추론 단계)

LLM 사용자의 질문에 답변을 생성할 부품들은 다음과 같이 협력합니다.

1.     로드 (HBF/SSD → HBM/SDRAM): 꺼져 있던 AI 모델 파라미터들이 고속 저장 장치에서 연산 장치 근처의 메모리(HBM ) 올라옵니다.

2.     입력 처리 (CPU → NPU/GPU): 사용자의 질문(텍스트) CPU 받아 토큰화한 연산 장치로 전달합니다.

3.     반복 계산 (NPU/GPU ↔ HBM): NPU 문장을 생성하기 위해 HBM 저장된 파라미터들을 수천 읽고 쓰며 행렬 연산을 수행합니다.

o   이때 대역폭이 낮으면 응답 속도가 느려지고, 메모리가 부족하면 모델이 아예 돌아가지 않습니다.

4.     출력 (NPU → CPU → 사용자): 생성된 결과값을 다시 인간이 읽을 있는 언어로 변환하여 화면에 출력합니다.


핵심 요약표

부품 역할 핵심 키워드
GPU/NPU 실제 연산 수행 병렬 처리, TFLOPS, 전력 효율
HBM 초고속 데이터 공급 대역폭(Bandwidth), GPU 단짝
SDRAM 범용 데이터 처리 가성비, 확장성, 온디바이스 AI
HBF/HBS 대규모 모델 저장/전송 비휘발성, 초고용량, 병목 해소

최근 트렌드는 메모리 내에서 직접 계산까지 수행하는 PIM(Processor-In-Memory) 기술을 HBM이나 HBF 적용하여, 데이터 이동 자체를 줄여 에너지를 아끼는 방향으로 진화하고 있습니다.

 

728x90