본문 바로가기
법, 용어/SI 법

장애 이슈

by 3604 2025. 11. 28.
728x90

유지관리 사업 시스템 지연 발생 시 장애/이슈 구분 및 보고 기준

1. 대한민국 공공기관 SLA 주요 기준

1.1 행정안전부 공공정보시스템 SLA 표준안 (2025.8.28 발표, 2027년 의무화)

핵심 지표:
  • 정보시스템 가용률 (전체 평가 비중 30% 이상)
    • 1등급 시스템: 99.92% 이상 (월간 약 34.6분 장애 허용)
    • 2등급 시스템: 99.90% 이상 (월간 약 43.8분 장애 허용)
  • 장애조치 최대 허용시간 (개별서비스 수준 관리 필수지표)
    • 1등급 시스템: 2시간 이내 복구 완료
    • 2등급 시스템: 3시간 이내 복구 완료
    • 초과 시 지체시간(분) 기준 제재금 산정

1.2 전자정부법 시행령 (2025년 개정안)

  • 제70조의5(정보시스템 장애상황 및 사후관리): 장애가 발생하거나 발생할 우려가 있는 상황을 장애상황으로 정의
  • 1·2등급 주요 정보시스템 장애 발생 시 해당 기관은 즉시 행정안전부에 피해 내용과 조치 사항 보고 의무

2. 장애 vs 이슈 구분 기준

2.1 법적/제도적 정의

장애 (자치단체 정보시스템 장애 예방 및 대응 지침) :
"정보시스템의 고장, 오류, 기능 저하 등으로 사용자가 정보시스템을 사용할 수 없거나 그 기능 활용이 어려운 상태"

 

장애상황 (전자정부법 시행령) :
"장애가 발생하거나 발생할 우려가 있는 상황"
이슈 (IT 서비스 관리 관행) :
개발/수정 필요 사항, 결함, 문제 상황으로, 서비스 중단/지연으로 이어지지 않는 경미한 수준

2.2 판단 기준 체크리스트

Table
Copy
구분장애 (사고)이슈 (문제)
서비스 영향 사용자 업무 중단 또는 심각한 지연 경미한 불편 또는 일시적 성능 저하
가용률 SLA 기준(99.9%) 위반 SLA 기준 이내
복구 시간 2~3시간 내 복구 불가능 시 장애 인정 즉시 조치 가능하거나 영향 없음
법적 보고 행안부 즉시 보고 의무 대상 보고 의무 대상 아님
사용자 경험 실패(Failure) 상태 또는 타임아웃 지연(Delay) 但 업무 수행 가능

3. 기능 수정 후 시스템 지연의 구분 기준

3.1 장애로 판단되는 경우 (즉시 보고 필요)

아래 조건 중 하나 이상 해당 시:
  1. 응답시간이 SLA 기준 초과
    • 일반적으로 3초 이상 지속적 지연 (업무 시스템 특성에 따라 상이)
    • 사용자 업무 중단 또는 실패로 이어짐
  2. 일정 시간 이상 복구 불가
    • 1등급: 2시간 초과 조치 불가 시
    • 2등급: 3시간 초과 조치 불가 시
  3. 다수 사용자 영향
    • 전체 사용자의 30% 이상이 서비스 이용 불가
  4. 핵심 기능 마비
    • 결재, 조회, 등록 등 핵심 업무 프로세스 중단
  5. 연계 시스템 장애 전파
    • 인터페이스를 통해 타 시스템으로 장애 확산

3.2 이슈로 판단되는 경우 (내부 관리)

아래 조건 모두 해당 시:
  1. SLA 가용률 기준 이내 (99.9% 이상 유지)
  2. 응답시간이 기준치 미만
    • 일반적으로 1~2초 이내 (시스템별 기준 상이)
  3. 일부 기능 경미한 지연 但 업무 수행 가능
  4. 단일 사용자 또는 소수 영향
  5. 즉시 조치(롤백, 튜닝) 가능

4. 보고 절차 및 기준

4.1 장애 발생 시 (즉시 보고)

보고 체계:
Copy
현장 담당자 → 프로젝트 관리자 → 기관 담당자 → 행정안전부
         (30분 이내)    (1시간 이내)   (즉시)
보고 내용:
  • 장애 발생 시간 및 발견 경로
  • 영향 범위 (사용자 수, 업무 유형)
  • 장애 원인 (소스 수정 부분 구체적 명시)
  • 조치 내용 및 예상 복구 시간
  • 관련 시스템 연계 여부
근거: 전자정부법 시행령 개정안 , SLA 표준안

4.2 이슈 발생 시 (정기 보고)

보고 체계:
Copy
현장 담당자 → 프로젝트 관리자 → 기관 담당자
         (일 단위)    (주 단위)
보고 내용:
  • 이슈 발생 현황 및 조치 결과
  • 성능 저하 원인 분석
  • 개선 방안 (소스 코드 최적화 등)
  • SLA 영향도 검토 결과

5. 법적/제도적 근거 및 주의사항

5.1 주요 법령 및 지침

  1. 전자정부법 시행령 (2025년 개정안)
    • 정보시스템 장애관리계획 수립 의무화
    • 장애상황 즉시 보고 규정
  2. 행정안전부 SLA 표준안 (2025.8)
    • 가용률 및 장애조치 시간 기준 명시
  3. 자치단체 정보시스템 장애 예방 및 대응 지침
    • 장애 정의 및 보고 체계 규정

5.2 유지보수 사업 특별 고려사항

소스 수정 후 발생한 지연의 특성:
  • 계획된 변경이므로 초기에는 예정된 장애로 볼 수 있으나, 성능 저하가 예상보다 심각할 경우 장애로 전환
  • 소스 코드 품질테스트 부실에 따른 책임 소재 확보 필요
  • 롤백 가능성을 사전에 협의해야 함
위약금 면제 사유 (SLA 표준안 참고):
  • 고객(기관)의 귀책 사유
  • 제3자의 고의·과실 (네트워크 장애 등)
  • 예정된 유지보수 (사전 협의된 경우)

5.3 문서화 및 증뱅 확보

  • 소스 수정 이력: Git 내 커밋 로그, 코드 리뷰 기록
  • 성능 테스트 결과: 수정 전/후 비교 자료
  • 모니터링 데이터: APM 도구(CPU, Memory, Response Time)
  • 사용자 불만 접수 기록: 헬프데스크 티켓

6. 실무 적용 시사점

6.1 즉시 조치 우선순위

  1. 영향도 파악: 실시간 모니터링 및 사용자 피드백 확인
  2. 2시간/3시간 원칙: SLA 기준 시간 내 복구 불가 시 장애로 판단
  3. 보고 결정: 장애 확정 시 기관 담당자에게 즉시 전화 보고

6.2 책임 회피 방지

  • 사전 협의: 기능 수정 시 예상 지연 시간 명시적 기록
  • 단계적 배포: 카나리 배포, 블루-그린 배포 등 위험 최소화
  • 롤백 플랜: 30분 내 이전 버전 복구 가능하도록 준비

결론

기준 요약:
  • 시스템 지연SLA 가용률 99.9% 이하로 떨어지거나 핵심 업무 중단을 초래하면 장애
  • 2시간(1등급)/3시간(2등급) 내 복구 불가 시 장애 확정행안부 즉시 보고
  • 경미한 성능 저하로 업무 수행 가능 시 이슈로 분류하여 내부 관리
핵심 판단 기준은 "사용자 업무 연속성" 이며, 기능 수정이라는 특수 상황에서도 사전 협의 없이 SLA 기준을 초과하면 장애로 분류되어 제재금 부과 대상이 될 수 있습니다.
728x90