Computer Science/Computer Science

백업, 복원, 배포 무중단

Ofglen 2023. 7. 11. 16:47

화재로 인한 서비스 장애 사건 원인: 시스템 이중화가 되어 있지 않은 인프라 구조

https://namu.wiki/w/SK%20C%26C%20%ED%8C%90%EA%B5%90%20%EB%8D%B0%EC%9D%B4%ED%84%B0%EC%84%BC%ED%84%B0%20%ED%99%94%EC%9E%AC%EB%A1%9C%20%EC%9D%B8%ED%95%9C%20%EC%9D%B8%ED%84%B0%EB%84%B7%20%EC%84%9C%EB%B9%84%EC%8A%A4%20%EC%9E%A5%EC%95%A0%20%EC%82%AC%EA%B1%B4

 

SK C&C 판교 데이터센터 화재로 인한 인터넷 서비스 장애 사건 - 나무위키

22시 02분 기준, 다음의 증권과 부동산 서비스가 복구되었다. 카카오는 '무료서비스 보상안'으로 전국민 이모티콘을 지급할 예정이다. 이모티콘은 3종이며 영구 사용 1종, 90일간 사용 2종을 제공

namu.wiki

 

http://www.ddaily.co.kr/page/view/2022120613105788224

 

판교 데이터센터 화재, SK C&C-카카오 ‘쌍방 과실’…원인은?

...

www.ddaily.co.kr

 

 

 

 

 

오토스케일링 선행 조건

Web-WAS 연결했을 때 WAS에 오토 스케일링을 처리한다고 했을 때 새로 생긴 서버를 연결하기 위해서는 ip 주소를 알아야 하기 때문에 DNS(도메인 주소)를 사용해서 도메인 통신할 수 있도록 해야한다. 로드 밸런서를 사용해서 서버에 균등하게 요청을 분배한다.

오토 스케일링: ip 통신 (X), DNS 통신(O)

 

 

복원(Restore)

고가용성 시스템 구축 시 복원 목표

RPO와 RTO 단위는 ‘시간’ (일, 시, 분, 초)

  • ⭐ RPO(Recovery Point Objective): 재해 복구 시간 목표
    • 장애 발생 시점에서 데이터 손실을 허용하고 그 범위를 설정
  • ⭐ RTO(Recovery Time Objective): 재해 복구 시점 목표
    • 장애 발생 시점부터 복구 되는 시간 목표
    • 비용과 손실 반비례

 

RPO: 이상적인 솔루션 시점 ( https://blog.naver.com/kctcyber/220397950438 )

 

 

백업 방법

  • 일반 백업(Base Backup):
  • 증분 백업(incremental Backup): 늘어난 데이터만 복원
  • 복사 백업
  • 차등 백업(Differential Backup): 변경된 데이터만 복원
  • 합성 백업

 

 

Quiz. 매주 일요일에 Full Backup 진행 후, 월~토요일까지는 변경된 데이터에 대해서만 백업을 진행

  일(Full)
Data   a b c d e f
증분(incremental)   a b c d e f
차등(differential)   a a,b a,b,c a,b,c,d a,b,c,d,e a,b,c,d,e,f

복구 속도: 증분이 빠름

 

 

 

💡 백업이란?

PC와 물리적으로 다른 분리된 장소(제 3의 위치)에 저장한다.

그래야 PC에 있는 데이터가 손실 되었을 때 복구

 

 

 

 

10. 서비스 무중단

서비스 무중단: IT 자산을 지키고 비즈니스 연속성을 필요로 하는 시스템과 데이터를 백업과 복원을 하는 것

가용성을 높이기 위해 백업과 복원이 필요하고 시스템 구축 방법에는 FT, HA, DR, Backup이 있다.

 

 

 

비즈니스 연속성에 따른 솔루션

종류 타겟 중단 가능 시간 자동화 비용 Ex)
FT (Fault Tolerant) 중단이 절대 불가능한 시스템 X 완전 자동화 매우 비쌈 은행 거래, 카드 승인, 증권 거래 시스템 등 24시간 중단이 불가능한 시스템
HA (High Availability) 운영 시스템 장애 시 감지하고 실시간으로 서비스 재개가 가능한 시스템 1-5분 이내 완전 자동화 권고 (상황 따라 수동) 보통 대부분 일반 서비스
DR (Diaster Recovery) 주 데이터 센터가 재해로 가동이 불가능할 경우를 대비해서 원격지에 동기화된 시스템 준비 케바케 케바케 비쌈 국가 전산 시스템, 회사 비즈니스 주요 핵심 서비스들
Backup 과거 시점의 데이터를 보존. 언제든 복원 가능하면 됨 1시간 이상 자동 백업 후 수동 복원 저렴 웹 서버 같이 데이터 변동이 별로 없는 서비스들.
거래 내역, 사용 기록 등 법적 보관이 필요한 데이터들 (5년)          

 

 

 

 

무중단 배포 (Zero-downtime deployment)

무중단 배포(Zero-downtime deployment)는 소프트웨어 또는 애플리케이션의 업데이트나 변경을 수행하는 동안 서비스의 가용성을 유지하는 배포 방식이다. 무중단 배포는 사용자에게 서비스 중단(downtime) 없이 신규 버전으로의 전환한다.

 

 

 

⭐ 이중화

  • 시스템의 가용성을 높이기 위해 여러 장비를 사용하는 방법
  • 고가용성: 이중화를 구성하면 가용성을 향상 시킴
  • 하나의 장비에 문제가 생겨도 다른 장비에서 서비스 될 수 있도록 구성
  • 종류: A-A(Active-Active), A-S(Active-Standby)

 

 

Active-Active

  • 다중화 된 장비가 모두 가동되는 방식
  • 모든 장비가 사용되기 때문에 처리율이 높음
  • 복잡해진 구성으로 사용자 세션 관리 방법과 부하 분산 처리에 대한 방식을 고려해야 함
  • Google Compute Engine에서 **[Q1. Auto Scaling]**를 구성하는 경우

 

 

Active-Standby

  • 두 대를 기본으로 구성하는 형태에서 하나는 가동되고, 다른 하나는 장애 상황을 대비하여 대기시키는 방식
  • Failover: 장애가 발생해서 Active 장비가 죽고 Standby 장비가 Active 상태가 되어 서비스를 하게 되는 과정
  • Standby가 Active 상태로 실행되는 시간 동안은 서비스 중단이 발생하게 됨
  • TCP 부하 분산 서비스의 백엔드 구성에서 **[Q2. 이 인스턴스 그룹을 백업용 장애 조치 그룹으로 사용]**로 구성하는 경우 → Standby Backend로 형성됨
  • Cloud SQL에서 **[Q3. Multiple-Zone(여러 영역, 고가용성)]**로 구성하는 경우

 

 

 

고가용성 백분율 계산

고가용성 백분율 계산은 시스템 또는 서비스의 가용성을 백분율로 표현하는 방법이다. 가용성은 서비스가 사용 가능한 시간(운영 시간)과 총 시간(24시간 또는 월 단위)을 기반으로 계산하는데, 서비스 중단 시간을 최소화하고 고객에게 제공되는 서비스의 신뢰성을 나타내는 지표로 사용된다.

가용성(%) = (운영 시간 / 총 시간) * 100

백분율 계산

 

고가용성 - 위키백과, 우리 모두의 백과사전

위키백과, 우리 모두의 백과사전. 고가용성(高可用性, 영어: high availability, HA)은 서버, 네트워크, 프로그램 등의 정보 시스템이 상당히 오랜 기간 동안 지속적으로 정상 운영이 가능한 성질을 말

ko.wikipedia.org

구글 클라우드 SLA

 

Google Cloud Platform Service Level Agreements

The following are the Service Level Agreements for the following Google Cloud Platform services.

cloud.google.com