본문 바로가기
컴퓨터 활용(한글, 오피스 등)/기타

ai 기능별 부품 역할은?

by 3604 2026. 3. 31.
728x90

 

Gemini의 응답

AI 모델, 특히 Transformer 기반의 LLM 구동될 부품(하드웨어) 어떤 수학적 연산과 기능을 담당하는지 매칭하여 설명해 드리겠습니다.

LLM 핵심인 Transformer 구조는 크게 **행렬 연산(Matrix Multiplication)** 데이터 이동으로 나뉩니다.


1. Transformer 모델의 기능별 하드웨어 매칭

AI 기능/연산 담당 부품 (Hardware) 이유 역할
병렬 행렬 연산 (Linear Layer) NPU / GPU Transformer 90% 이상은 거대한 행렬 곱셈입니다. 수만 개의 코어를 가진 NPU/GPU 이를 동시에 처리합니다.
Attention (집중도 계산) NPU / GPU + HBM 특정 단어 간의 관계를 계산할 대량의 데이터를 메모리에서 읽어와야 하므로, 고대역폭 메모리(HBM) 속도가 필수적입니다.
KV 캐시 (이전 대화 기억) SDRAM / HBM 대화가 길어지면 이전 단어들의 정보를 저장해둬야 합니다. 이때 용량이 SDRAM이나 속도가 빠른 HBM 임시 저장합니다.
Softmax / 가중치 조절 CPU / NPU 확률을 계산하거나 복잡한 제어 로직이 필요한 부분은 CPU 관여하거나 NPU 전용 가속기가 처리합니다.
모델 파라미터 로드 HBF / HBS 수천억 개의 파라미터를 '창고'에서 '작업대' 옮길 고속 플래시(HBF) 스토리지(HBS) 병목을 줄여줍니다.
size=2 width="100%" align=center data-path-to-node=5 style='border-image: initial'>

2. 주요 부품별 '전공' 분야

NPU (Neural Processing Unit) : "추론의 지배자"

·        역할: 이미 학습된 LLM 실제 서비스할 (추론) 가장 효율적입니다.

·        특징: Transformer 연산에 최적화된 MAC(Multiply-Accumulate) 연산기 위주로 구성되어, 전력은 적게 쓰면서 문장 생성 속도는 GPU보다 빠를 있습니다.

GPU (Graphics Processing Unit) : "범용 가속의 표준"

·        역할: 모델의 **학습(Training)** 고성능 추론을 담당합니다.

·        특징: 소프트웨어 생태계(CUDA ) 매우 되어 있어, 새로운 구조의 AI 모델이 나와도 즉시 대응 가능한 유연함을 갖추고 있습니다.

HBM (High Bandwidth Memory) : "데이터 고속도로"

·        역할: Attention 메커니즘의 병목 현상을 해결합니다.

·        특징: Transformer 연산량도 많지만, 데이터를 메모리에서 가져오는 속도가 느리면 연산기가 놀게 됩니다. HBM 통로를 수천 개로 늘려 데이터를 즉시 공급합니다.

SDRAM (DDR5 / LPDDR5x) : "대용량 보조 작업대"

·        역할: 온디바이스 AI KV 캐시 저장소 역할을 합니다.

·        특징: HBM 쓰기엔 비용이 너무 비싸기 때문에, 상대적으로 빈번하게 접근하거나 용량이 많이 필요한 데이터를 담아둡니다.


3. LLM 구동 시나리오 예시

1.     입력: 사용자가 질문을 던지면 CPU 이를 숫자로 변환(Tokenizing)합니다.

2.     연산: NPU/GPU HBM에서 모델 가중치를 읽어와 Transformer 행렬 연산을 시작합니다.

3.     집중: Attention 연산 이전 문맥 정보를 SDRAM KV 캐시에서 가져와 대조합니다.

4.     저장: 만약 모델이 너무 커서 메모리에 올라가면, **HBF(High Bandwidth Flash)**에서 필요한 부분만 실시간으로 스와핑(Swapping)하며 읽어옵니다.

5.     출력: 최종 계산된 확률값을 바탕으로 단어를 하나씩 생성합니다.

요약하자면:

·        추론/계산 NPU/GPU 하고,

·        Transformer 거대 연산 HBM 도움을 받으며,

·        Attention 문맥 유지 SDRAM 협력하고,

·        전체 모델의 저장과 빠른 로딩 HBF/HBS 책임집니다.

 

728x90