본문 바로가기
컴퓨터 활용(한글, 오피스 등)/기타

S3와 HDSF 란

by 3604 2026. 3. 31.
728x90

데이터 저장 기술의 두 축인 AWS S3HDFS는 데이터를 저장한다는 목적은 같지만, 설계 철학과 사용 사례에서 큰 차이를 보입니다. 쉽게 말해, 하나는 '거대한 인터넷 저장소'이고, 다른 하나는 '빅데이터 처리를 위한 내부 엔진'이라고 볼 수 있습니다.


1. AWS S3 (Simple Storage Service)

S3는 아마존 웹 서비스(AWS)에서 제공하는 클라우드 기반 객체 스토리지입니다.

  • 객체 스토리지: 데이터를 '파일' 단위가 아닌 '객체' 단위로 저장합니다. 데이터와 메타데이터, 고유 식별자를 묶어서 관리합니다.
  • 특징: * 무한한 확장성: 저장 공간을 미리 확보할 필요 없이 원하는 만큼 저장할 수 있습니다.
    • 높은 내구성: 데이터가 여러 데이터 센터에 복제되어 유실 위험이 극도로 낮습니다.
    • 접근성: HTTP/HTTPS 프로토콜을 통해 인터넷 어디서든 접근이 가능합니다.
  • 용도: 웹사이트 정적 리소스(이미지, 영상), 데이터 백업, 로그 저장, 데이터 레이크(Data Lake) 구축.

2. HDFS (Hadoop Distributed File System)

HDFS는 아파치 하둡(Hadoop) 프레임워크의 일부로, 분산형 파일 시스템입니다.

  • 분산 저장: 거대한 파일을 일정한 크기의 블록으로 나누어 여러 대의 서버(노드)에 분산해서 저장합니다.
  • 특징:
    • 데이터 지역성 (Data Locality): 데이터를 처리하는 코드를 데이터가 있는 서버로 보내서 처리합니다. 즉, "데이터가 이동하는 게 아니라 연산이 이동"하여 네트워크 비용을 줄입니다.
    • 결함 허용 (Fault Tolerance): 블록을 여러 노드에 복제(기본 3개)하여 특정 서버가 고장 나도 데이터를 안전하게 보호합니다.
    • 고처리량: 대용량 파일의 순차적 읽기에 최적화되어 있습니다.
  • 용도: 대규모 빅데이터 분석(MapReduce, Spark 등), 고성능 배치 작업.

3. 주요 차이점 비교

구분 AWS S3 HDFS
유형 객체 스토리지 (클라우드 서비스) 분산 파일 시스템 (소프트웨어)
데이터 단위 객체 (Object) 블록 (Block)
확장성 사실상 무제한 (AWS가 관리) 클러스터에 서버를 추가하여 확장
비용 저장한 만큼 지불 (Pay-as-you-go) 서버 구축 및 유지보수 비용 발생
데이터 수정 덮어쓰기만 가능 (수정 불가) 파일 끝에 추가 가능 (Append only)
주요 강점 편의성, 관리 효율성, 저렴한 비용 대량 데이터 연산 속도 (데이터 지역성)

요약하자면

  • S3는 "어디서나 접근 가능하고 관리가 필요 없는 편리한 창고"입니다. 현대적인 데이터 레이크 구축 시 가장 먼저 고려됩니다.
  • HDFS는 "강력한 성능을 위해 데이터를 연산 장치 바로 옆에 두는 커스텀 공장"입니다. 아주 복잡하고 무거운 빅데이터 연산을 직접 수행해야 할 때 유리합니다.

최근에는 클라우드 환경이 대세가 되면서 HDFS 대신 S3를 저장소로 쓰고, 연산만 Spark나 Presto 같은 엔진으로 처리하는 방식이 많이 활용되고 있습니다.

728x90