728x90
데이터 저장 기술의 두 축인 AWS S3와 HDFS는 데이터를 저장한다는 목적은 같지만, 설계 철학과 사용 사례에서 큰 차이를 보입니다. 쉽게 말해, 하나는 '거대한 인터넷 저장소'이고, 다른 하나는 '빅데이터 처리를 위한 내부 엔진'이라고 볼 수 있습니다.
1. AWS S3 (Simple Storage Service)
S3는 아마존 웹 서비스(AWS)에서 제공하는 클라우드 기반 객체 스토리지입니다.
- 객체 스토리지: 데이터를 '파일' 단위가 아닌 '객체' 단위로 저장합니다. 데이터와 메타데이터, 고유 식별자를 묶어서 관리합니다.
- 특징: * 무한한 확장성: 저장 공간을 미리 확보할 필요 없이 원하는 만큼 저장할 수 있습니다.
- 높은 내구성: 데이터가 여러 데이터 센터에 복제되어 유실 위험이 극도로 낮습니다.
- 접근성: HTTP/HTTPS 프로토콜을 통해 인터넷 어디서든 접근이 가능합니다.
- 용도: 웹사이트 정적 리소스(이미지, 영상), 데이터 백업, 로그 저장, 데이터 레이크(Data Lake) 구축.
2. HDFS (Hadoop Distributed File System)
HDFS는 아파치 하둡(Hadoop) 프레임워크의 일부로, 분산형 파일 시스템입니다.
- 분산 저장: 거대한 파일을 일정한 크기의 블록으로 나누어 여러 대의 서버(노드)에 분산해서 저장합니다.
- 특징:
- 데이터 지역성 (Data Locality): 데이터를 처리하는 코드를 데이터가 있는 서버로 보내서 처리합니다. 즉, "데이터가 이동하는 게 아니라 연산이 이동"하여 네트워크 비용을 줄입니다.
- 결함 허용 (Fault Tolerance): 블록을 여러 노드에 복제(기본 3개)하여 특정 서버가 고장 나도 데이터를 안전하게 보호합니다.
- 고처리량: 대용량 파일의 순차적 읽기에 최적화되어 있습니다.
- 용도: 대규모 빅데이터 분석(MapReduce, Spark 등), 고성능 배치 작업.
3. 주요 차이점 비교
| 구분 | AWS S3 | HDFS |
| 유형 | 객체 스토리지 (클라우드 서비스) | 분산 파일 시스템 (소프트웨어) |
| 데이터 단위 | 객체 (Object) | 블록 (Block) |
| 확장성 | 사실상 무제한 (AWS가 관리) | 클러스터에 서버를 추가하여 확장 |
| 비용 | 저장한 만큼 지불 (Pay-as-you-go) | 서버 구축 및 유지보수 비용 발생 |
| 데이터 수정 | 덮어쓰기만 가능 (수정 불가) | 파일 끝에 추가 가능 (Append only) |
| 주요 강점 | 편의성, 관리 효율성, 저렴한 비용 | 대량 데이터 연산 속도 (데이터 지역성) |
요약하자면
- S3는 "어디서나 접근 가능하고 관리가 필요 없는 편리한 창고"입니다. 현대적인 데이터 레이크 구축 시 가장 먼저 고려됩니다.
- HDFS는 "강력한 성능을 위해 데이터를 연산 장치 바로 옆에 두는 커스텀 공장"입니다. 아주 복잡하고 무거운 빅데이터 연산을 직접 수행해야 할 때 유리합니다.
최근에는 클라우드 환경이 대세가 되면서 HDFS 대신 S3를 저장소로 쓰고, 연산만 Spark나 Presto 같은 엔진으로 처리하는 방식이 많이 활용되고 있습니다.
728x90
'컴퓨터 활용(한글, 오피스 등) > 기타' 카테고리의 다른 글
| AI에서 카프카를 사용하는 이유 (0) | 2026.03.31 |
|---|---|
| AWS S3와 같이 구축하려고 한다면 도입 장비 및 솔루션은? (0) | 2026.03.31 |
| ai 사용하는 수학적 모델 (0) | 2026.03.31 |
| ai 기능별 부품 역할은? (0) | 2026.03.31 |
| ai llm 모델 기능별 부품들을 설명해줘 (0) | 2026.03.31 |