본문 바로가기
컴퓨터 활용(한글, 오피스 등)/기타

이중화 DB시스템을 계정계, 정보계 DB시스템으로 전환 절차

by 3604 2025. 8. 18.
728x90
이중화 운영 DB(40 TB↑)를
① 계정계(당일 실시간, 3 NF 이상 정규화)
② 정보계(전력·분석, 하루 지난 데이터, 스타 스키마/칼럼스토어 등)
로 단계적으로 나누는 절차를 “6단계 18-Week 로드맵”으로 정리했습니다.
각 단계마다 운영 영향도 0을 목표로 롤백-검증-점진적 전환을 반복합니다.
──────────────────────── 1단계. 현황 진단 & 타깃 아키텍처 확정 (Week 0-2) • 현재 스키마·용량·트래픽 분석
– 테이블 1,000 개 중 50 개가 95 % 용량 차지(히트맵)
– 슬로우 로그 7 일치 → CRUD 패턴·SLA 측정
• 계정계/정보계 분리 기준 확정
– 계정계: “T-0 24 h” 데이터만 보관, OLTP SLA < 100 ms
– 정보계: “T-1~” 데이터, 배치·분석 SLA < 5 min
• 이관 후 목표 성능/용량 산정
– 계정계 목표 크기: 0.5 TB (당일치)
– 정보계 목표 크기: 39.5 TB (과거치)
• 정규화 전략
– 계정계: 3 NF(거래,계좌,고객)
– 정보계: 스타 스키마(팩트-디멘전) 또는 칼럼스토어
2단계. 스키마 재설계 & POC (Week 3-4) • 논리 모델(ERD) 작성 → 계정계/정보계 별도 스키마
• POC 환경 구축(동일 HW 스펙의 스테이징)
– 샘플 데이터 5 TB 로드
– 정규화·역정규화·파티셔닝·인덱싱 실험
• 성능·용량·복구 시간 측정 → Go/No-Go 판정
3단계. 이중화 확장 & 스트리밍 복제 구축 (Week 5-6) • 계정계 신규 클러스터(Active-Active) 배포
• 정보계 DW(칼럼스토어·MPP) 구축
• 논리 복제(CDC) 또는 트리거 기반 스트리밍
– PostgreSQL: pgoutput + Debezium → Kafka → 정보계
– Oracle: GoldenGate
– MySQL: binlog → Kafka Connect
• 트랜잭션 순서·중복 제거 검증
• 복제 지연 모니터링(초당 1 GB 이상 목표)
4단계. 이관 스크립트 & 롤백 자동화 (Week 7-10) • 계정계로 이전할 데이터 필터링
– “created_at >= CURRENT_DATE”
• 정보계 적재 스크립트
– 배치 윈도우 01:00-05:00, 1 TB/시간 속도
• Flyway/Liquibase 로 스키마 버전 관리
• 이관-롤백 쌍 스크립트
– 실패 시 15 분 이내 복구(Blue-Green 방식)
• POC 환경에서 100 회 이상 재현 테스트
5단계. 점진적 이관 & 모니터링 (Week 11-16) • 테이블 단위 점진적 스위치
– 1 주일 단위로 1 테이블씩 이관
– 트래픽이 낮은 시간대(새벽 2-4 시) 수행
• Shadow Read
– 계정계·정보계 양쪽에 동시 쿼리 → 결과 비교
– 1 % 이상 오차 시 즉시 롤백
• 성능 메트릭 대시보드
– 계정계: P95 latency, TPS
– 정보계: ETL 완료 시간, Query latency
• 점검 게이트
– 매주 회의 → SLA 달성 시에만 다음 테이블로 진행
6단계. 구(Old) 시스템 제거 & 최적화 (Week 17-18) • 마지막 테이블 이관 완료 후 1 주일 모니터링
• 구 시스템 Read-Only 전환
• 2 주간 보류 기간(감사·백업 유지)
• 구 시스템 종료 및 용량 회수
• 정보계 추가 최적화
– 파티션 프루닝(월별)
– 칼럼스토어 압축(ZSTD) 적용
– 머티리얼라이즈드 뷰·집계 테이블 구성
──────────────────────── Key Checklist • 무중단: 트리거/CDC 복제로 실시간 이중화
롤백 보장: 테이블 단위 컷오버, Shadow Read, Blue-Green
정규화 우선: 계정계는 3 NF, 정보계는 분석 최적화
자동화: Flyway, Ansible, Kafka Connect, 모니터링 대시보드
단계별 SLA 검증: 매 단계마다 성능·복구 시간 측정
위 로드맵을 따르면 40 TB 운영 DB를 18 주 내에 계정계/정보계로 안정적으로 전환하면서 서비스 중단 없이 대용량 처리 문제를 해결할 수 있습니다.
728x90